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硬件 是 借助 凰 电子 工具 构建 起 来 的 缺乏 灵活 性 的 东西 。 虚 拟 机 用 一 层 软件 将 硬件 包 计 起来， 从 而 
使 得 计算 机 灵活 可 交 。 正在 发 展 的 一 些 新 技术 ， 能 饮 突 现在 同一 个 硬件 上 运行 罗 个 操作 系统 、 执 行 罗 
套 指 令 集 ， 人 允许 程序 在 执行 过 程 中 妃 换 机 器 ， 甚 至 排斥 不 安全 的 代码 。 庶 拟 机 正 改 变 着 和 守 复 机 和 操作 
等 统 的 役 科 宵 法 、 编 程 征 言 的 突现 硝 法 ， 以 及 安全 专家 对 和 守 算 机 和 科 息 的 认 知 。Smith 和 Nair 的 这 本 书 
是 和 儿 兮 为 止 仅 有 的 对 虚拟 机 玉 其 众 罗 应 用 的 综 还 。 


一 一 Jim Larus， 微 软 研 究 院 
虚拟 机 已 经 无 处 不 在 。Smith 和 Nair 极 苔 清晰 地 阅 明 了 虚拟 机 技术 对 现代 计算 机 体系 结构 、 程 序 设 


计 和 语言 、 操 作 系 统 以 及 安全 技术 的 深 记 影响。 对 未 来 计算 机 系统 谱 兴 趣 的 人 有 交 要 研读 本 书 ， 我 极力 
推荐 本 书 ! 


一 一 Michael D. Smith， 哈 佛 大 学 


纵 观 历 史 ， 操 作 系 统 、 编 程 语言 和 编译 器 、 计 算 机 体系 结构 等 多 个 领域 都 发 展 了 各 自 的 虚拟 机 技术 ， 
但 没有 从 统一 的 角度 搭建 这 些 技术 的 基本 关系 。 现 代 计 算 机 系统 的 硬件 结构 正 朝 着 片上 多 核 、 系 统 多 级 并 
行 处 理 的 方向 发 展 ， 并 且 通 过 Internet 互 联 起 来 ， 构 成 功能 更 强大 、 应 用 更 广泛 的 系统 。 在 系统 的 物理 资源 
大 大 增加 的 同时 ， 系 统 的 物理 实现 也 变 得 极为 复杂 ， 系 统 在 可 扩展 性 、 可 靠 性 、 可 用 性 、 可 管理 性 和 安全 
性 等 方面 都 遇 到 了 难以 用 单 点 体系 结构 技术 来 解决 的 一 系列 问题 。 虚 拟 机 技术 在 应 对 这 一 系列 问题 上 越 来 
越 显 现 出 前 所 未 有 的 重要 性 。 本 书 总 结 了 各 种 不 同 的 虚拟 机 技术 ， 为 计算 机 各 个 领域 的 学 者 和 研发 人 员 提 
供 了 一 个 新 的 交叉 研究 领域 ， 便 于 以 更 好 的 组 织 方式 来 研究 、 设 计 和 实现 虚拟 机 。 


本 书 特 色 


\ 

@ 结构 清晰 。 本 书 以 计算 机 系统 接口 抽象 层次 中 两 个 最 重要 的 接口 一 一 应 用 的 二 进 制 接口 和 应 用 程序 接 
口 为 边界 ， 将 计算 机 系统 资源 的 各 种 虚拟 化 技术 划分 为 进程 虚拟 机 和 系统 虚拟 机 两 大 类 展开 讨论 ， 清 
晰 地 展现 了 虚拟 化 技术 各 种 方法 的 各 个 层面 及 各 类 应 用 。 

@ 全 面 系统 。 作 者 从 学 术 和 工业 应 用 两 个 方面 对 虚拟 机 技术 几 十 年 的 研究 和 发 展 历史 进行 了 综述 ， 从 
体系 结构 、 程 序 设计 语言 和 编译 、 操 作 系统 及 系统 安全 等 多 个 专业 领域 深入 探讨 了 虚拟 机 技术 的 应 用 。 

o 理 实 交融 。 本 书 提供 了 大 量 实际 虚拟 机 系统 的 原理 说 明 及 翔实 的 参考 文献 ， 包 括 Shade 模 拟 系统 、 
FX!32 系 统 、Dynamo/RIO、Java 和 CLI 等 流行 语言 虚拟 机 、Jikes RVM, Transmeta Crusoe 处 理 器 、 
IBM 的 AS/400 和 z/VM 系 统 、VMware 的 主机 虚拟 机 、iIntel 的 VT-x 虚 拟 技术 以 及 多 处 理 器 虚拟 系 
统一 一 Cellular Disco。 微 软 、 惠 普及 其 他 工业 研究 团体 的 本 领域 研究 人 员 对 全 书 进行 了 审阅 。 

© 面向 未 来 。 本 书 在 最 后 一 章 专门 讨论 了 一 些 新 兴 的 虚拟 机 应 用 ， 包 括 安全 领域 (讨论 入 侵 检测 系统 
的 原理 以 及 虚拟 机 在 系统 攻防 方面 的 应 用 潜力 ) 、 移 动 计算 环境 (讨论 商业 上 的 应 用 : VMware 的 
Vmotion) 以 及 计算 网 格 〈 展 示 典 型 的 系统 虚拟 机 对 新 兴 网 格 系统 出 现 的 重要 作用 ) 方面 的 应 用 。 
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本 书 从 计算 机 体系 结构 研究 者 的 角度 ,以 计算 机 系统 接口 抽象 层次 中 两 个 最 重要 的 接 
口 一 一 应 用 二 进 制 接口 (Application Binary Interface, ABI) 和 应 用 程序 接口 (Application Pro- 
gram Interface, API) 为 边界 ， 将 计算 机 系统 资源 的 各 种 虚拟 化 技术 划分 为 进程 虚拟 机 和 系统 
虚拟 机 两 大 类 展开 讨论 ， 内 容 包括 体系 结构 、 程 序 设计 语言 和 编译 、 操 作 系 统 、 系 统 安 全 等 ， 
并 借助 大 量 的 案例 (1BM 的 Daisy, HP 的 Dynamo, Intel/Microsoft 的 El 等 ) 阐明 了 虚拟 机 的 
基本 概念 和 原理 ， 清 晰 展现 了 虚拟 化 技术 和 种 方法 的 各 个 层面 及 应 用 。 

本 书 可 以 作为 讲授 计算 机 系统 结构 研究 生 课程 《虚拟 机 技术 》 的 教材 或 教学 参考 书 。 工 
作 在 虚拟 机 技术 领域 的 专业 人 士 可 以 用 于 自学 这 些 领 域 的 前 沿 技 术 。 此外， 本 书 还 可 以 作为 
一 本 计算 机 系统 软 健 件 参考 资料 ， 它 收集 了 许多 相关 的 实例 资料 。 


Virtual Machines; Versatile Platforms for Systems and Processes 

James E. Smith; Ravi Nair 

ISBN: 978-1-55860-910-5 

Copyright © 2005 by Elsevier Inc. All rights reserved. 

ISBN; 978-981 -259-708-3 

Copyright © 2009 by Elsevier~( Singapore) Pte Ltd. All rights reserved. 

Authorized Simplified Chinese translation edition published by the Proprietor. 

Printed in China by China Machine Press under special arrangement with Elsevier ( Singapore ) 
Pte Ltd. This edition is authorized for sale in China only, excluding Hong Kong SAR and Tai- 
wan. Unauthorized export of this edition is a violation of the Copyright Act. Violation of this Law is 
subject to Civil and Criminal Penalties. 


本 书简 体 中 文 版 由 机 械 工业 出 版 社 与 Elsevier (Singapore) Pte Ltd， 在 中 国 大 陆 境内 合作 
出 版 。 本 版 仅 限 在 中 国境 内 (不 包括 中 国 香港 特别 行政 区 及 中 国 台湾 地 区 ) 出 版 及 标价 销售 。 
本 经 许可 之 出 口 ， 视 为 违反 著作 权 法 ， 将 受 法 律 之 制裁 。 


版 权 所 有 ， 侵 权 必 究 。 

本 书法 律 顾问 ”北京 市 展 达 律师 事务 所 

本 书 版 权 登记 号 : AF: 01-2006-3883 
图 书 在 版 编目 (CIP) 数据 


虚拟 机 ; 系统 与 进程 的 道 用 平台 A( 美 》 詹 姆 斯 (Smith, JE), (38) Mt (Nair, R. ) 
B KM. KE, RADE. 一 北京 :机械 工 业 出 版 社 ，2009. 3 
(计算 机 科学 丛书 ) 


EAX: Virtual Machines: Versatile Platforms for Systems and Processes 





ISBN 978-7-111-25668-7 
Le LOE Omo OE Oke QR M. 虚拟 处 理 机 IV. TP338 
中 周 版 本 网 书馆 CIP 数据 核 字 (2008) 第 194684 号 


机 械 工 业 出 版 社 (北京 市 西城 区 百 万 庄 大 街 22 号 “邮政 编码 “100037 ) 
责任 编辑 : K 

北京 瑞 德 印刷 有 限 公 司 印 刷 

2009 年 3 月 第 1 版 第 1 次 印刷 

184mm x260mm + 24.75 印张 

标准 书号 ISBN 978-7-111-25668-7 

定价 : 78.00 无 


凡 购 本 书 ， 如 有 倒 页 、 脱 页 、 缺 页 ， 由 本 社 发 行 部 调换 
本 社 购书 热线 : (010) 68326294 


出 版 者 的 话 | 


ff 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 礁 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信 息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 几 十 年 闻 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 访 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 "”。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 桔 选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray，Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com _ 

联系 电话 : (010) 88379604 
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进入 21 世纪 ， 工 艺 技术 的 进步 和 计算 机 应 用 的 变化 推动 了 计算 机 体系 结构 的 迅猛 发 展 ， 赋 
予 了 计算 机 体系 结构 新 的 含义 。 现 代 计 算 机 系统 的 硬件 结构 正在 朝 着 片上 多 核 、 系 统 多 级 并 行 
处 理 的 方向 发 展 ， 并 且 通 过 Internet 网 络 互联 起 来 ， 构 成 功能 更 强大 、 应 用 更 广泛 的 系统 。 在 系 
统 的 物理 资源 大 大 增加 的 同时 ， 系 统 的 物理 实现 也 变 得 极为 复杂 ， 系 统 的 可 扩展 性 、 可 靠 性 、 可 
用 性 、 可 管理 性 和 安全 性 等 方面 都 遇 到 了 前 所 未 有 的 、 难 以 用 单 点 体系 结构 技术 来 解决 的 一 系 
列 问题 。1992 年 布 特 勒 * 兰 普 还 (Butler Lampson) 在 他 获得 图 灵 奖 发 表 的 演说 中 引用 了 大 卫 ， 
33%) (David Wheeler) 的 名 言 :“ 计 算 机 科学 中 的 任何 问题 都 可 以 通过 增加 一 个 中 间 层 来 解决 ”， 
前 明了 用 虚拟 化 技术 来 解决 这 一 系列 问题 的 大 方向 ， 揭 示 了 虚拟 机 技术 发 展 的 历史 必然 。 

本 书 的 作者 敏锐 地 观察 到 了 现代 计算 机 体系 结构 发 展 趋势 的 这 一 重大 变化 ， 从 计算 机 体系 
结构 研究 者 的 角度 ， 以 计算 机 系统 接口 抽象 层次 中 两 个 最 重要 的 接口 应 用 二 进 制 接口 (Ap- 
plication Binary Interface, ABI) 和 应 用 程序 接口 (Application Program Interface, API) 为 边界 ， 
将 计算 机 系统 资源 的 各 种 虚拟 化 技术 划分 为 进程 虚拟 机 和 系统 虚拟 机 两 大 类 展开 讨论 ， 清 晰 地 
展现 了 虚拟 化 技术 各 种 方法 的 各 个 层面 和 各 类 应 用 。 

第 1 章 首 先 引 入 了 计算 机 系统 接口 的 抽象 定义 ， 讨 论 了 虚拟 化 与 各 层 接口 的 关系 。 然 后 从 计 
算 机 体系 结构 的 概念 出 发 ， 对 各 种 不 同类 型 的 虚拟 机 进行 了 分 类 总 结 ， 将 虚拟 机 分 为 两 个 主要 
类 型 : 进程 虚拟 机 和 系统 虚拟 机 。 

第 2 章 至 第 6 章 侧 重 讨 论 进 程 虚拟 机 。 第 2 章 讨 论 在 目标 指令 集体 系 结构 (Instruction Set 
Architecture, ISA) 上 仿真 源 指令 集体 系 结构 的 相关 问题 ， 并 以 一 种 CISC 源 指 令 集 Itel IA-32、 
一 种 RISC 目标 指令 集 IBM PowerPC 为 例 来 说 明 ; 然后 以 Shade 系统 为 例 介 绍 了 二 进 制 翻译 技 
术 。 第 3 章 讨论 进程 虚拟 机 的 实现 问题 ， 包 括 指令 集 的 仿真 和 主机 操作 系统 接口 的 仿真 ， 最 后 介 
绍 实例 FX!32 系统 。 第 4 章 讨 论 通 过 代码 优化 获得 更 好 的 仿真 性 能 的 技术 ， 包 括 各 种 程序 剖析 
技术 ， 此 外 还 讨论 了 代码 重 排序 技术 ， 最 后 介绍 了 Dynamo 动态 二 进 制 代码 优化 器 。 第 5 章 介绍 
高 级 语言 虚拟 机 的 体系 结构 ， 特 别 是 它们 支持 面向 对 象 编程 和 安全 的 特征 ， 这 一 章 介绍 了 当今 
两 个 重要 的 面向 对 象 虚拟 机 一 一 Java 虚拟 机 和 微软 的 CLI。 第 6 章 进一步 讨论 高 级 语言 虚拟 机 的 
实现 问题 ， 并 以 Jikes RVM 作为 案例 研究 说 明 本 章 的 概念 。 

第 7 章 至 第 9 章 侧 重 讨论 系统 虚拟 机 。 第 7 章 介绍 协同 设计 虚拟 机 ， 并 以 Transmeta Crusoe 
处 理 器 和 IBMAS/400 处 理 器 的 案例 研究 结束 本 章 。 第 8 章 涉及 经 典 的 系统 虚拟 机 及 其 实现 方法 ， 
包括 本 地 虚拟 机 和 宿主 虚拟 机 。 此 外 还 讨论 对 计算 机 系统 三 个 主要 资源 : 处 理 器 、 存 储 器 、LO 
的 虚拟 化 技术 ， 以 及 如 何 用 硬件 来 提高 虚拟 机 的 性 能 。 本 章 给 出 的 研究 实例 包括 : VMware 和 
Intel VT-x (Vanderpool), $39 章 讨论 多 处 理 器 系统 的 虚拟 化 问题 ， 包 括 对 不 同 指令 集 的 客户 和 
主机 平台 多 处 理 器 系统 的 虚拟 化 。 

第 10 章 介 绍 了 虚拟 机 技术 新 兴 的 应 用 领域 ， 重 点 介绍 了 在 安全 领域 (讨论 人 侵 检 测 系统 的 
原理 以 及 虚拟 机 在 系统 攻防 方面 的 应 用 洪 力 )、 移 动 计算 环境 (讨论 了 商业 上 的 应 用 : VMware 
的 VMotion) 以 及 计算 网 格 (展示 典 型 的 系统 虚拟 机 对 新 兴 网 格 系统 出 现 的 重要 作用 ) 方面 的 
应 用 。 
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附录 为 本 书 的 主要 章节 提供 了 计算 机 系统 结构 的 背景 资料 ， 讨 论 了 处 理 器 、 存 储 器 、L/O 在 
计算 机 系统 中 的 作用 。 

虚拟 机 未 来 应 用 的 广泛 性 意味 着 本 书 适合 各 种 各 样 的 读者 ,包括 从 事 计 算 机 系统 结构 、 语 
言 和 编译 、 操 作 系统 、 应 用 软件 等 各 个 领域 的 教学 和 研发 人 员 。 本 书 从 写作 上 具有 如 下 特点 : 
(1) 结构 清晰 。 本 书 从 计算 机 体系 结构 研究 者 的 角度 ， 以 计算 机 系统 接口 抽象 层次 中 两 个 最 重 
要 的 接口 一 一 应 用 的 二 进 制 接口 和 应 用 程序 接口 为 边界 ， 将 计算 机 系统 资源 的 各 种 虚拟 化 技术 
划分 为 进程 虚拟 机 和 系统 虚拟 机 两 大 类 展开 讨论 ， 清 晰 地 展现 了 虚拟 化 技术 各 种 方法 的 各 个 层 
面 和 各 类 应 用 。(2) 全 面 系 统 。 作 者 从 学 术 和 工业 应 用 两 个 方面 对 虚拟 机 技术 几 十 年 的 研究 和 
发 展 历史 进行 了 综述 ， 从 体系 结构 、 程 序 设计 语言 和 编译 、 操 作 系 统 及 系统 安全 等 多 个 专业 领域 
深入 探讨 了 虚拟 机 技术 的 应 用 。(3) 理 实 交 融 。 本 书 提供 了 大 量 实际 虚拟 机 系统 的 原理 说 明 及 
翔实 的 参考 文献 ， 包 括 Shade 模拟 系统 、FX132 系统 、Dynamo/RIO Java 和 CLI 等 流行 语言 
拟 机 、Jikes RVM, Transmeta Crusoe 4b #228. IBM 的 AS/400 和 z/VM 系统 、VMware 的 主机 虚 
HPL, Intel 的 VT-x 虚拟 技术 ， 以 及 多 处 理 器 虚拟 系统 一 一 Cellular Disco。 微 软 、 惠 普及 其 他 工 
业 研 究 团体 的 本 领域 研究 人 员 对 全 书 进行 了 审阅 。 (4) 面向 未 来 。 本 书 除 在 各 章节 讨论 了 虚拟 
机 技术 的 各 种 应 用 以 外 ， 还 在 最 后 一 章 专门 讨论 了 一 些 新 兴 的 虚拟 机 应 用 ， 包 括 安全 领域 、 移 动 
计算 环境 、 以 及 计算 网 格 方面 的 应 用 。 

本 书 的 翻译 由 中 国 科学 技术 大 学 计算 机 科学 技术 系 的 安 虹 、 张 旦 和 吴 俊 敏 承担 。 安 虹 翻 译 
了 第 1，2，4，9，10 章 和 附录 ， 张 昱 翻译 了 第 3，5, 6 章 ， 吴 俊 敏 翻译 了 第 7，8 章 。 翻 译 完成 
后 ， 三 人 进行 了 互 校 ， 最 后 由 安 虹 对 全 书 进 行 了 统 校 。 研 究 生 隋 秀 峰 、 王 莉 、 从 明 、 任 永 青 、 王 
瘤 彬 、 李 济 川 等 在 《虚拟 机 》 课 程 的 学 习 过 程 中 对 相关 章节 进行 了 讨论 和 总 结 ， 为 理解 本 书 做 
出 了 贡献 。 

本 书 涉及 的 知识 面 较 宽 ， 包 括 计算 机 体系 的 结构 、 编 译 和 操作 系统 、 应 用 开发 环境 等 许多 方 
面 ， 观 点 较 新 ， 提 出 了 许多 全 新 的 概念 和 方法 。 因 此 ,在 翻译 的 过 程 中 我 们 深 感 难以 全 面 准确 地 
把 握 原 文 的 译 意 ， 译 文 难免 存在 错误 和 不 足 ， 敬 请 读者 批评 指正 。 





译 者 
2008 年 10 月 于 中 国 科学 技术 大 学 
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为 了 获得 新 的 能 力 ， 解 决 与 计算 机 系统 主要 组 件 接口 的 多 种 问题 ， 操 作 系 统 、 编 程 语言 和 编 
译 器 、 计 算 机 体系 结构 三 个 领域 都 发 展 了 虚拟 机 技术 。 支 持 操作 系统 的 虚拟 机 技术 过 去 曾 相 对 
活 胜 过 ， 现 在 又 重新 引起 人 们 的 兴趣 ， 因 为 它 可 以 在 保持 高 度 安全 性 的 同时 获得 高 效 的 资源 共 
享 。 虚拟 技术 在 服务 器 以 及 其 他 网 络 应 用 ， 尤 其 是 对 安全 要 求 很 高 的 领域 越 来 越 受 欢迎 。 在 编程 
语言 方面 ， 虚 拟 机 提供 了 平台 无 关 性 ， 而 且 支 持 动态 和 透明 的 翻译 和 优化 。 在 处 理 器 体系 结构 方 
面 ， 虚 拟 机 技术 允许 引入 新 的 指令 集 以 及 动态 优化 ， 以 降低 功 耗 、 提 高 性 能 。 

工业 界 对 一 些 标准 接口 的 统一 ,使 得 虚拟 机 技术 很 可 能 在 上 面 提 到 的 各 个 领域 的 革新 中 起 
到 重要 的 作用 。 新 的 指令 集 、 操 作 系统 、 编 程 语言 要 想 被 广泛 接受 都 需要 与 虚拟 机 技术 结合 。 许 
多 虚拟 机 技术 发 展 的 推动 力 及 近来 获得 的 大 多 数 重要 进步 都 来 自 工业 界 。 

历史 上 ， 各 种 虚拟 机 技术 均 延 伸 到 了 计算 机 科学 和 工程 学 科 中 。 不 过 ， 存 在 许多 基础 的 交叉 
技术 ， 如 果 能 发 挥 这 些 技术 的 作用 就 能 够 以 更 好 的 组 织 方式 来 研究 和 设计 虚拟 机 的 实现 。 本 书 
是 按 统一 原则 进行 虚拟 机 技术 研究 的 结晶 。 

本 书 介绍 了 对 计算 机 体系 结构 的 理解 。 按 照 传 统 的 定义 ,体系 结构 就 是 一 个 接口 。 虚 拟 机 把 
接口 连 在 一 起 ， 同 时 扩大 接口 的 灵活 性 和 功能 性 。 理 解体 系 结构 是 理解 虚拟 技术 的 关键 ， 本 书 从 
体系 结构 研究 者 的 角度 ， 首 先 保持 与 接口 的 相关 问题 的 清晰 ， 使 得 读者 在 阅读 后 对 计算 机 系统 
接口 的 重要 性 ， 以 及 它们 在 计算 机 主要 部 件 间 相互 作用 时 所 扮演 的 角色 有 更 深 的 认识 。 

虚拟 机 应 用 的 广泛 性 意味 着 本 书 有 各 种 各 样 需求 的 读者 。 虽 然 目 前 虚拟 机 还 没有 被 大 学 作 
为 一 个 学 科 来 看 待 ， 但 因为 它 与 计算 机 科学 和 工程 学 的 关键 原理 : 体系 结构 、 操 作 系统 、 编 程 语 
言 紧 密 结合 ， 使 得 虚拟 机 成 为 研究 生 课程 一 个 很 好 的 方向 。 本 书 的 初版 已 经 在 四 所 不 同 大 学 的 
研究 生 课程 中 使 用 ， 并且 取 得 了 一 定 的 成 功 。 本 书 可 以 作为 关于 动态 优化 的 编译 器 课程 或 包含 
典型 系统 虚拟 机 的 操作 系统 课程 的 辅助 教材 。 虚 拟 机 技术 正在 被 工业 界 广 泛 而 快速 地 接受 ， 从 
事 相关 工作 的 专业 人 士 将 会 发 现 本 书 也 可 以 用 于 自学 前 沿 技术 。 本 书 还 可 以 作为 一 本 参考 资料 ， 
因为 它 收集 了 许多 领域 的 资料 。 

本 书 首先 总 结 了 各 种 不 同 的 虚拟 机 ， 从 一 个 视角 建立 起 统一 的 讨论 框架 。 后 面 的 章节 中 将 
描述 主要 的 几 类 虚拟 机 ， 突 出 它们 之 间 的 共同 点 和 低层 技术 。 下 面 粗略 地 介绍 一 下 每 章 的 网 要 。 

第 1 章 我 们 引信 了 目前 计算 机 系统 中 流行 的 抽象 概念 和 接口 定义 。 随 后 讨论 了 虚拟 化 以 及 其 
与 接口 的 关系 。 接 着 介绍 了 计算 机 体系 结构 概念 ， 总 结 了 各 种 不 同类 型 的 虚拟 机 。 媚 拟 机 可 以 分 
为 两 个 主要 类 型 进程 虚拟 机 和 系统 虚拟 机 。 本 章 的 最 后 ,我 们 深入 讨论 了 虚拟 机 的 分 类 ， 并 提 
出 了 一 种 虚拟 机 的 分 类 方法 。 

第 2 章 我 们 讨论 了 用 目标 指令 集体 系 结构 (ISA) 仿真 源 指令 集体 系 结构 的 相关 问题 。 说 明 
了 基本 解释 程序 的 工作 ， 以 及 如 何 用 线索 化 解释 (threaded interpretation) 来 提高 性 能 ， 并 使 用 
”一 种 CISC 源 指令 集 mtel IA-32、 一 种 RISC 目标 指令 集 IBM PowerPC 来 说 明 所 开发 出 的 技术 。 接 
着 介绍 二 进 制 转换 的 概念 ， 并 讨论 代码 发 现 和 代码 定位 的 问题 。 随 后 讨论 控制 转移 的 处 理 ， 许 多 
指令 集体 系 结构 都 有 一 些 必须 用 特别 方法 处 理 的 特殊 特征 (有些 情 况 下 ,它们 被 称 为 
“quirks” ) 。 最 后 用 一 个 在 Shade 模拟 系统 中 仿真 的 例子 来 结束 本 章 。 
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第 3 章 讨论 进程 虚拟 机 的 实现 。 进 程 虚拟 机 支持 在 由 操作 系统 和 低层 硬件 组 成 的 主机 平台 上 
运行 单独 的 客户 应 用 程序 。 我 们 讨论 虚拟 机 兼容 性 的 含义 ， 同 时 说 明 在 一 个 进程 虚拟 机 中 的 机 
器 状态 ， 包 括 寄 存 器 状态 和 存储 器 状态 如 何 被 映射 和 维护 。 这 一 章 我 们 还 研究 虚拟 机 运行 时 软 
件 如 何 使 用 自修 改 代码 和 存储 保护 区 。 虚 拟 机 的 仿真 包括 两 部 分 。 首 先 讨 论 指 令 集 的 仿真 ， 涉 及 
到 第 2 章 中 讨论 的 解释 程序 和 二 进 制 翻译 。 接 着 讨论 主机 操作 系统 接口 的 仿真 。 最 后 我 们 介绍 了 
FX!32 RHE, FX!32 系统 包含 很 多 本 章 所 讨论 的 基本 原理 和 思想 。 

第 4 章 重 点 讨论 用 于 进行 代码 优化 以 获得 更 好 的 仿真 性 能 的 技术 。 这 一 章 讨论 了 执行 这 些 优 
化 所 需 的 基本 框架 和 为 了 帮助 代码 优化 而 在 程序 执行 时 必须 收集 的 剖析 信息 。 各 种 剖析 技术 都 
将 被 讨论 。 因 为 在 更 大 的 代码 块 上 常常 能 开展 更 好 的 优化 ， 我 们 介绍 了 动态 基本 块 (dynamic 
basic block) 、 超 块 ( superblock)、 轨 迹 (traces) 和 树 组 (tree groups) 的 概念 。 这 一 章 还 延伸 
讨论 了 代码 重 排序 及 其 局 限 性 。 各 种 代码 优化 技术 ， 包 括 块 间 及 块 内 的 优化 技术 都 会 介绍 。 最 后 
通过 对 Dynamo 的 案例 研究 来 总 结 这 一 章 ，Dynamo 是 动态 二 进 制 的 优化 器 ， 应 用 于 使 用 相同 源 
和 目标 指令 集体 系 结构 的 系统 中 。 

第 5 章 介绍 了 高 级 语言 虚拟 机 ， 妃 溯 了 从 早期 的 Pascal P-code 虚拟 机 到 面向 对 象 的 虚拟 机 。 
重点 介绍 高 级 语言 虚拟 机 的 体系 结构 ， 特 别 是 它们 支持 面向 对 象 编程 和 安全 的 特征 。 现 今 两 个 
重要 的 面向 对 象 虚拟 机 分 别 是 Java 虚拟 机 和 微软 的 CLI， 这 一 章 描述 了 它们 的 字 节 码 、 面 向 栈 的 
指令 集 等 特征 。 在 介绍 这 两 种 虚拟 机 时 ， 对 指令 集 的 介绍 都 附 以 对 增强 虚拟 机 的 库 和 应 用 程序 
接口 集合 组 成 的 整个 平台 的 介绍 。 

第 6 章 继续 讨论 高 级 语言 虚拟 机 ， 重 点 是 它们 的 实现 。 在 前 面 的 章节 中 ， 更 多 关注 的 是 Ja- 
va， 因 为 它 应 用 广泛 而 且 有 很 多 不 同 实 现 。 要 特别 考虑 的 两 个 问题 是 安全 和 存储 管理 。 垃 圾 收集 
的 重要 性 和 执行 垃圾 收集 的 技术 放 在 一 起 讨论 。 随 后 讨论 Java 对 象 与 在 Java 环境 外 编写 的 本 地 
程序 之 间 的 交互 。 我 们 讨论 使 用 第 4 章 提 到 的 代码 优化 技术 以 及 针对 面向 对 象 模式 的 新 技术 来 提 
高 Java 的 性 能 。 本 章 的 概念 通过 案例 研究 Jikes RVM 整合 到 一 起 。 

第 7 章 我 们 介绍 协同 设计 (co-designed) 虚拟 机 。 在 协同 设计 虚拟 机 中 ， 传 统 指令 集体 系 结 
构 可 以 通过 组 合 面向 实现 的 指令 集体 系 结构 和 运行 在 隐藏 存储 上 的 翻译 来 实现 。 我 们 讨论 把 源 
指令 集体 系 结构 的 状态 映射 到 实现 的 指令 集体 系 结构 上 的 技术 ， 以 及 维护 含有 翻译 后 代码 的 代 
码 缓存 技术 。 本 章 还 讨论 诸如 精确 中 断 、 缺 页 中 断 等 许多 难题 。 本 章 以 Transmeta Crusoe 处 理 器 
和 IBMAS/400 处 理 器 这 两 个 案例 研究 结束 。 

第 8 章 涉及 典型 的 系统 虚拟 机 。 系 统 虚 拟 机 支持 在 主机 平台 上 运行 一 个 完整 的 客户 操作 系统 
及 其 所 有 的 应 用 。 我 们 说 明了 系统 虚拟 机 的 提出 动机 ， 并 概要 介绍 系统 虚拟 机 的 实现 方法 ， 包 括 
本 地 的 (native) 和 宿主 (hosted) 的 虚拟 机 。 我 们 还 讨论 对 计算 机 系统 三 个 主要 资源 : 处 理 器 、 
存储 器 、LO 的 虚拟 化 技术 。 处 理 器 虚拟 化 的 条 件 最 早 由 Popek 和 Goldberg 在 70 年 代 曾 明 ， 现 
在 已 经 得 到 发 展 。 本 章 还 讨论 了 当 指令 集 不 符合 这 些 条 件 时 的 虚拟 化 技术 。 在 讨论 存储 器 虚拟 
化 时 ， 重 点 讨论 带 有 结构 页 表 和 结构 TLB 的 系统 。 接 着 讨论 各 种 VO 设备 的 虚拟 化 。 然 后 我 们 
把 注意 力 转移 到 用 硬件 来 提高 虚拟 机 系统 性 能 上 ， 并 以 IBM z/VM 作为 例子 来 说 明 。 本 章 最 后 
给 出 了 两 个 案例 : VMware 开发 的 宿主 虚拟 机 系统 和 Intel 为 其 IA-32 架构 开发 的 VT-x (Vander- 
pool) 技术 。 

BOG, 我 们 把 注意 力 转移 到 了 多 处 理 器 系统 的 虚拟 化 上 。 我 们 介绍 了 系统 分 区 的 概念 ， 并 
为 不 同类 型 的 分 区 开发 出 一 种 方法 。 接 着 我 们 讨论 了 物理 分 区 和 逻辑 分 区 的 原则 。 有 逻辑 分 区 的 
一 个 例子 是 BM LPAR， 随 后 讨论 使 用 系统 管理 程序 进行 逻辑 分 区 。 之 后 我 们 以 Celular Disco 作 
为 案例 转向 利用 基于 系统 虚拟 机 的 方法 来 对 多 处 理 器 系统 虚拟 化 。 在 本 章 的 最 后 对 采用 不 同 指 


Vl 


令 集 体系 结构 的 客户 和 主机 平台 的 多 处 理 器 系统 的 虚拟 化 进行 探讨 ， 特 别 关 注 客户 与 主机 之 间 
不 同 存储 器 模型 之 间 的 桥接 。 

第 10 章 讨 论 虚 拟 机 技术 的 新 兴 应 用 。 焦 点 聚焦 于 我 们 觉得 在 未 来 几 年 很 重要 的 三 个 应 用 领 
域 。 第 一 个 是 安全 领域 ， 我 们 讨论 现代 计算 机 系统 易 受 攻击 的 弱点 ， 并 简单 介绍 人 侵 检测 系统 的 
原理 ,讨论 了 虚拟 机 在 攻击 防护 和 从 攻击 中 恢复 方面 的 应 用 潜力 ， 我 们 还 讨论 了 二 进 制 重 写 技 
术 在 关于 RIO 系统 的 安全 上 扮演 的 角色 。 第 二 个 应 用 是 将 计算 环境 从 一 人 台 机 器 迁移 到 另 一 台 ， 
这 种 技术 被 用 在 两 个 系统 中 :Internet 挂 起 /恢复 (Suspend/Resume) 系统 和 Stanford Collective 系 
R, 我 们 讨论 了 这 两 个 系统 ， 并 讨论 了 商业 上 的 应 用 : VMware 的 VMotion。 第 三 个 新 型 应 用 是 
计算 网 格 ， 我 们 概述 了 以 网 格 作为 计算 的 基础 设施 的 动机 ， 并 与 其 他 类 型 虚拟 机 的 动机 进行 比 
较 。 最 后 展示 了 典型 的 系统 虚拟 机 对 新 兴 网 格 系统 出 现 的 重要 作用 。 

附录 其 实 是 对 计算 机 系统 的 浓缩 ， 以 提供 本 书 主要 章节 的 背景 资料 。 在 附录 中 ， 首 先 讨论 了 
处 理 器 、 存 储 器 、IO 在 计算 机 系统 中 的 作用 ; 其 次 讨论 了 指令 集体 系 结构 ， 包 括 对 用 户 应 用 程 
序 的 支持 和 对 操作 系统 的 支持 ; 还 讨论 了 页 表 和 TLB。 再 次 讨论 了 操作 系统 的 主要 组 件 和 应 用 
程序 与 操作 系统 之 间 的 系统 调用 接口 。 最 后 ， 我 们 讨论 了 多 处 理 器 体系 结构 ， 包 括 集群 结构 和 共 
享 存储 多 处 理 器 系统 ， 还 讨论 了 共享 存储 系统 中 的 存储 一 致 性 问题 。 

本 书 可 以 不 同 的 方法 在 课程 中 使 用 。 大 体 上 ， 本 书 是 按照 把 虚拟 机 作为 一 门 课 程 的 论题 
(这 是 我 们 推荐 的 方式 ) 来 组 织 的 。 对 于 讲述 虚拟 机 的 操作 系统 课 ， 教师 可 以 在 介绍 第 1 章 后 直 
接 进入 第 8 到 10 章 , 第 2 到 5 章 可 以 稍 后 作为 了 解 实现 细节 来 讨论 。 偏 向 硬件 的 课程 可 以 从 第 1 
到 4 章 开 始 ， 然 后 跳 过 5、6 章 ， 直 接 进 人 剩余 章节 。 偏 向 编程 语言 的 课程 可 以 在 完成 第 1 章 后 
直接 进入 第 5 章 ， 然 后 再 回 到 第 2 到 第 4 章 ， 最 后 通过 第 6 章 把 所 有 内 容 结合 到 一 起 。 使 用 本 书 
中 材料 的 任何 课程 都 可 以 把 第 10 章 作为 兴趣 篇 阅读 。 

特别 感 兴趣 的 技术 人 员 可 以 自主 决定 他 们 阅读 本 书 的 顺序 ， 在 编写 本 书 过 程 中 ， 我 们 力图 
使 读者 可 以 从 任何 一 章 感 兴趣 的 开始 阅读 ， 并 且 在 阅读 整 章 内 容 时 ， 只 需 偶 尔 翻 阅 其 他 章节 的 
内 容 。 
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第 1 章 虚拟 机 导论 


现代 计算 机 是 人 类 工程 学 中 最 先进 的 结构 ， 人 类 对 极度 复杂 性 的 控制 能 力 成 就 了 现代 计算 
机 今日 的 辉煌 。 计 算 机 系统 由 许多 硅 芯 片 组 成 ， 而 每 个 芯片 则 由 上 亿 个 晶体 管 构成 。 这 些 芯 片 相 
互 连 接 ， 并 与 高 速 的 输入 /输出 设备 、 网 络 设施 一 起 组 成 可 以 运行 软件 的 平台 。 操 作 系统 、 应 用 
程序 和 库 、 图 形 和 网 络 软件 ， 所 有 这 些 协 同 工 作 ， 为 数据 管理 、 教 育 、 通 信 、 娱 乐 以 及 许多 其 他 
应 用 提供 了 强大 的 计算 机 环境 。 

管理 计算 机 系统 复杂 性 的 关键 是 通过 一 些 定 义 明确 的 接口 把 计算 机 系统 划分 成 不 同 的 抽象 
层次 。 抽 象 层次 允许 忽略 或 简化 系统 设计 的 底层 实现 细节 ， 从 而 简化 高 层 组件 的 设计 。 例 如 ， 硬 
盘 被 划分 为 不 同 的 磁道 和 扇 区 ， 它 的 细节 经 过 操作 系统 的 抽象 ， 使 应 用 程序 看 到 的 硬盘 是 不 同 
大 小 的 文件 集合 (图 1-1)。 在 这 之 后 应 用 程序 可 以 创建 、 读 、 写 文件 ， 而 并 不 需要 了 解 硬盘 是 
如 何 构 造 和 组 建 的 。 





图 1-1 硬盘 抽象 成 文件 。 一 个 层次 的 抽象 提供 了 到 底层 资源 的 简单 接口 


计算 机 系统 的 抽象 层次 通过 分 层 组 织 ， 底 层 由 硬件 实现 ， 高 层 由 软件 实现 。 在 硬件 层 ， 所 有 
的 组 件 都 是 物理 的 ， 有 真实 的 特性 ， 各 部 分 通过 定义 的 接口 物理 地 连接 在 一 起 。 在 软件 层 ， 组 件 
都 是 逻辑 的 ， 较 少 受 物理 特性 的 限制 。 本 书 主要 涉及 硬件 和 软件 分 界 处 及 其 附近 的 抽象 层次 ， 在 
这 些 层 次 上 软件 从 运行 它 的 机 器 中 分 离 出 来 。 

计算 机 软件 由 “机 器 ”来 执行 (“机 器 (Machine) ”这 个 术语 从 计算 机 出 现时 就 有 ， 现 在 
比较 流行 的 是 “平台 (Platform) ”这 个 术语 )。 从 操作 系统 的 角度 看 , “机 器 ”主要 由 一 些 硬 件 
组 成 ， 包 括 一 个 或 多 个 运行 特定 指令 集 的 处 理 器 、 实 存储 器 、LO 设备 。 但 是 , “机 器 ”这 个 术 
语 的 使 用 并 不 局 限于 计算 机 的 硬 部 件 。 例 如 ， 从 应 用 程序 的 角度 看 , “机 器 ”是 指 操作 系统 与 通 
过 用 户 级 二 进 制 指令 可 访问 的 那 部 分 硬件 的 组 合 。 

现在 我 们 再 来 讨论 如 何 使 用 定义 明确 的 接口 来 管理 复杂 的 情况 。 明 确 的 接口 可 以 分 解 计算 
机 的 设计 任务 ,使 得 硬件 和 软件 设计 组 能 够 或 多 或 少 地 独立 开展 工作 。 指 令 集 就 是 这 样 一 个 接 
口 。 例 如 ，Intel Al AMD 的 设计 师 开 发 实现 IA-32 指令 集 的 微 处 理 器 ， 同 时 微软 的 软件 工程 师 


O 有 时 候 非 形式 地 称 为 x86。 
O 此 页 码 为 英文 原 书页 码 ， 与 索引 中 的 页 码 一 致 。 一 一 编辑 注 
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开发 把 高 级 语言 映射 到 该 指令 集 的 编译 器 。 只 要 这 两 个 设计 小 组 都 能 够 遵从 该 指令 集 的 规范 定 

义 ， 编 译 好 的 软件 就 可 以 在 由 IA-32 处 理 器 组 成 的 机 器 上 正确 执行 。 操 作 系统 接口 被 定义 为 一 组 

函数 调用 的 集合 ， 是 计算 机 系统 中 另 一 个 重要 的 标准 化 接口 。 像 前 面 的 Intel 和 微软 的 例子 ， 定 

义 明确 的 接口 使 不 同 公司 或 不 同时 间 (甚至 相差 几 年 的 时 间 ) 开发 的 计算 机 子 系统 之 间 可 以 交 

互 。 应 用 软件 开发 者 不 需要 知道 操作 系统 内 部 细节 的 变化 ， 硬 件 和 软件 可 以 根据 各 自 不 同 的 开 
[2 ] 发 进度 独立 地 升级 。 软 件 可 以 在 实现 相同 指令 集 的 不 同 平台 上 运行 。 

除了 这 些 优点 ,定义 明确 的 接口 也 有 局 限 性 。 为 某 个 接口 规范 设计 的 子 系统 或 组 件 不 能 和 
那些 为 其 他 接口 规范 设计 的 子 系统 或 组 件 一 起 工作 。 有 不 同 指 令 集 的 处 理 器 (如 Intel 的 IA-32 
和 IBM 的 PowerPC) ， 也 有 不 同 的 操作 系统 (如 Windows 和 Linux)。 应 用 程序 以 二 进 制程 序 分 
发 后 ， 就 与 特定 的 指令 集 和 操作 系统 绑 定 了 。 一 个 操作 系统 则 与 实现 特定 的 存储 、LIO 系统 接口 
的 计算 机 绑 定 在 一 起 。 总 的 说 来 ， 指 令 集 、 操 作 系统 、 应 用 程序 语言 的 多 样 性 要 求 革 新 ， 反 对 停 
灌 。 但 在 实际 应 用 中 ， 这 些 多 样 性 也 削弱 了 它们 之 间 协 同 工 作 的 能 力 ， 尤 其 是 限制 了 在 网 络 计算 
机 上 像 移 动 数据 那样 自由 地 移动 软件 。 

在 硬件 /软件 接口 之 下 ， 硬 件 资源 也 会 限制 软件 系统 的 灵活 性 。 在 高 级 语言 和 操作 系统 中 ， 
存储 器 和 1O 的 抽象 已 经 消除 了 对 硬件 资源 的 很 多 依赖 ， 但 是 有 些 依 赖 仍然 存在 。 许 多 操作 系统 
是 为 特定 的 系统 结构 开发 的 ， 例 如 是 为 单 处 理 器 或 共享 存储 的 多 处 理 器 开发 的 ， 而 且 被 设计 成 
能 直接 管理 硬件 资源 。 这 就 意味 着 ， 系 统 的 硬件 资源 是 由 单一 的 操作 系统 管理 的 。 在 单一 的 管理 
体制 下 ， 所 有 的 硬件 资源 被 绑 定 到 单个 实体 中 。 这 样 做 ， 反 过 来 又 限制 了 系统 的 灵活 性 ， 不 仅 限 
制 了 可 用 的 应 用 软件 〈 如 前 面 讨 论 的 ) ， 特 别 是 ， 当 系统 被 多 个 用 户 或 用 户 组 共享 时 ， 在 安全 性 
和 故障 隔离 方面 也 限制 了 系统 的 灵活 性 。 

虚拟 化 提供 了 一 种 放宽 前 述 的 限制 ， 增 加 灵活 性 的 方法 。 当 一 个 系统 (或 子 系统 )， 例 如 处 
理 器 、 存 储 器 或 输入 /输出 设备 被 虚拟 化 ， 它 的 接口 和 所 有 通过 接口 可 见 的 资源 都 被 映射 到 实现 
它 的 真实 系统 的 接口 和 资源 上 。 从 而 ， 真 实 系统 可 以 表现 为 一 个 不 同 的 虚拟 系统 或 多 重 的 虚拟 
系统 的 集合 。 形 式 上 ， 虚 拟 化 是 构建 一 个 将 虚拟 的 客户 系统 映射 到 真实 的 主机 系统 上 (Popek 
and Goldberg 1974) 的 同 态 。 如 图 1-2 所 示 ， 这 个 同 态 是 将 客户 机 的 状态 映射 到 主机 的 状态 (图 
1-2 中 的 函数 V) ， 对 于 修改 客户 机 状态 的 操作 序列 e (函数 e 将 状态 S 修改 为 5,)， 在 主机 上 也 
有 相应 的 操作 序列 e'，e' 在 主机 上 执行 对 主机 状态 的 等 价 的 修改 (将 S, 变 成 9 ) 。 虽 然 这 样 的 

BI 同 态 可 以 同时 用 来 描述 虚拟 化 和 抽象 ， 但 我 们 要 加 以 区 分 : 虚拟 化 不 同 于 抽象 ， 虚 拟 化 不 需要 隐 
藏 细节 ; 虚拟 系统 的 细节 通常 与 底层 真实 系统 的 细节 相同 。 


N 








图 12 虚拟 化 。 形 式 上 ,虚拟 化 是 在 客户 系统 和 主机 系统 之 间 构 建 一 个 同 态 ; eo V (5,) =Vo e (351) 


再 来 看 一 下 硬盘 的 例子 。 有 些 应 用 中 需要 将 一 个 完整 的 大 硬盘 分 成 许多 小 的 虚拟 盘 ， 这 些 
虚拟 盘 中 的 每 一 个 都 被 映射 为 真实 盘 上 的 一 个 大 文件 (如 图 13) 。 虚 拟 软件 提 供 虚 拟 盘 内 容 和 
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真实 盘 内 容 之 间 的 映射 〈 同 态 中 的 V 函数 ) ， 把 文件 抽象 作为 中 间 步 。 每 个 虚拟 盘 表 面 上 都 包含 
一 些 逻 辑 磁道 和 扇 区 (虽然 比 大 硬盘 中 的 少 ) 。 对 虚拟 盘 的 写 操作 ( 同 态 中 的 e 函数) 被 镜 象 为 
在 主机 系统 中 对 文件 的 写 操作 和 对 相应 的 真实 盘 的 写 操作 ( 同 态 中 的 e 函数 ) 。 在 这 个 例子 中 ， 
虚拟 盘 接 口 所 提供 的 细节 级 别 ， 如 扇 区 和 磁道 寻 址 ， 都 与 真实 盘 相 同 ， 并 没有 发 生 任何 抽象 。 


-~ 
~ 





图 1-3 ”虚拟 硬盘 实现 。 虚 拟 化 在 同一 抽象 层 提供 不 同 的 接口 和 /或 资源 


虚拟 化 的 概念 不 仅 可 以 被 应 用 到 硬盘 等 子 系统 中 ， 也 可 以 被 用 于 整 台 机 器 。 虚 拟 机 (VM) 
通过 在 真实 机 器 上 增加 一 层 软件 来 支持 所 需 实现 的 虚拟 机 体系 结构 。 例 如 ， 在 Apple Macintosh 
上 安装 虚拟 软件 就 可 以 提供 一 个 Windows/IA-32 虚拟 机 ， 在 这 个 虚拟 机 上 可 以 运行 PC MA [a] 
序 。 通 常 ， 虚 拟 机 可 以 绕 开 真实 机 器 的 兼容 性 限制 和 对 硬件 资源 的 限制 ， 从 而 获得 更 高 的 软件 可 
移植 性 和 灵活 性 。 

有 各 种 各 样 的 虚拟 机 提供 各 种 各 样 的 用 途 。 多 拷贝 虚拟 机 可 以 在 一 个 硬件 平台 上 为 个 人 或 
用 户 组 提供 他 们 所 需要 的 操作 系统 环境 。 这 些 不 同 的 系统 环境 (可 能 有 不 同 的 操作 系统 ) 还 提 
供 隔离 性 和 增强 的 安全 性 。 一 个 大 型 多 处 理 器 服务 器 可 以 被 划分 成 一 些小 的 虚拟 服务 器 ， 并 同 
时 保持 整个 系统 硬件 资源 使 用 的 平衡 性 。 

虚拟 机 也 可 以 利用 仿真 技术 提供 跨 平台 的 软件 兼容 性 。 例 如 ， 一 个 实现 了 PowerPC 指令 集 的 平 
台 可 以 被 转换 成 一 个 可 运行 IA-32 指令 集 的 虚拟 平台 。 从 而 ， 为 一 个 平台 所 写 的 软件 可 以 在 另 一 个 
平台 上 运行 。 这 种 兼容 性 可 以 在 系统 级 提供 〈 例 如 ， 在 Macintosh 上 运行 一 个 Windows 操作 系统 ) , 
也 可 以 在 程序 或 进程 级 提供 (例如 ， 在 Solaris/SPARC 平台 上 运行 Excel) 。 除 了 仿真 ， 虚 拟 机 还 可 
提供 动态 、 在 线 的 二 进 制 程序 优化 。 最 后 ， 通 过 仿真 ， 虚 拟 机 还 可 以 在 支持 现 有 的 标准 指令 集 的 程 
序 的 同时 实现 新 的 私有 指令 集 ， 如 并 入 超 长 指令 字 (Very Long Instruction Words, VLIWs)。 

上 面 提 到 的 虚拟 机 都 是 为 匹配 现 有 的 真实 机 器 的 体系 结构 构建 的 。 然 而 ， 也 有 虚拟 机 没有 
相应 的 真实 机 器 。 语 言 开发 人 员 为 一 个 新 设计 的 高 级 语言 而 发 明 一 个 虚拟 机 的 做 法 已 经 十 分 普 
遍 。 用 这 种 高 级 语言 编写 的 程序 被 事先 编译 成 针对 虚拟 机 的 二 进 制 代码 ， 然 后 任何 实现 这 个 虚 
拟 机 的 真实 机 器 都 可 以 运行 已 编译 好 的 代码 。Java 语言 和 Java 虚拟 机 已 经 明确 证 实 了 这 种 方法 
的 作用 。 这 种 方法 达到 了 很 高 的 平台 无 关 性 ， 可 以 获得 相当 灵活 的 网 络 计算 环境 。 

操作 系统 开发 人 员 、 语 言 设计 人 员 、 编 译 器 开发 人 员 和 硬件 设计 人 员 都 从 各 自 的 角度 研究 
和 构建 虚拟 机 。 虽 然 每 一 种 虚拟 机 应 用 都 有 它 独特 的 性 质 , 但 是 它们 的 基本 概念 和 技术 在 虚拟 
机 范围 内 有 很 多 共同 点 。 由 于 各 种 不 同 的 虚拟 机 体系 结构 和 支撑 技术 是 由 不 同 的 工作 组 开发 的 ， 
统一 虚拟 机 的 知识 体系 、 理 解 各 种 不 同形 式 虚 拟 机 的 共同 的 支撑 技术 显得 特别 重要 。 这 本 书 的 
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目的 就 是 用 统一 的 方法 讲述 虚拟 机 家 族 ， 讨 论 虚拟 机 的 共同 的 支撑 技术 ， 通 过 探索 它们 的 多 种 
应 用 ， 说 明 它们 的 通用 性 。 


1.1 计算 机 体系 结构 


从 发 展 趋势 上 说 ， 对 虚拟 机 的 讨论 也 就 是 从 广义 上 对 计算 机 体系 结构 的 讨论 。 虚 拟 机 通常 
是 连接 体系 结构 边界 的 纽带 ,构建 虚拟 机 要 考虑 的 一 个 主要 问题 是 虚拟 机 在 实现 体系 结构 接口 
时 的 保 真 性 。 因 此 ， 有 必要 对 计算 机 体系 结构 进行 定义 和 总 结 。 

建筑 上 “结构 (architecture) ”这 个 词语 描述 了 从 建筑 物 的 使 用 者 角度 看 到 的 建筑 物 的 功能 
和 外 观 ， 但 不 包含 建造 的 细节 ， 如 给 排水 系统 或 砖 块 的 制造 商 的 细节 。 类 似 地 ， 当 “体系 结构 
(architecture) ”这 个 术语 应 用 到 计算 机 时 ， 是 指 计算 机 系统 或 子 系统 的 功能 和 外 观 ， 而 不 是 实现 
的 细节 。 形 式 上 ， 体 系 结构 通常 由 接口 规范 和 接口 操纵 的 资源 的 逻辑 行为 来 描述 。 术 语 “ 实 现 
(implementation) ” 则 用 于 描述 具体 的 体系 结构 。 每 种 体系 结构 都 可 以 有 多 个 实现 ， 每 种 实现 都 
可 以 有 不 同 的 特征 ， 如 高 性 能 和 低 功 耗 的 实现 。 

计算 机 系统 中 的 抽象 层次 与 硬件 和 软件 中 的 实现 层次 相对 应 ， 每 个 实现 层次 都 有 其 体系 结 
构 (虽然 不 一 定 总 是 使 用 体系 结构 这 个 术语 )。 图 1-4 表示 了 典型 的 计算 机 系统 的 一 些 重要 接口 
和 实现 层次 。 例 如 ， 软 件 上 有 应 用 程序 与 标准 库 之 间 的 接口 (图 1-4 中 的 接口 2) ， 另 一 个 软件 
接口 位 于 操作 系统 边界 上 (接口 3)。 硬 件 接口 包括 描述 驱动 VO 设备 控制 器 信号 的 VO 结构 
《接口 11)， 描 述 地 址 转换 的 硬件 存储 器 结构 (接口 9) ， 描 述 离开 处 理 器 的 存储 访问 信号 的 接口 
(接口 12) ， 描 述 到 达 存 储 器 中 DRAM 芯片 的 信号 的 接口 (接口 4)。 操 作 系 统 与 VO 设备 的 通 
信也 要 通过 一 连 串 的 接口 : 接口 4、8、10、11 和 13 。 在 这 些 接口 和 体系 结构 中 ， 我 们 最 感 兴趣 
的 是 硬件 、 软 件 边界 处 或 附近 的 接口 。 


软件 


ISA 


硬件 





图 1-4 计算 机 系统 体系 结构 。 实 现 层次 之 间 通 过 图 中 所 示 的 接口 进行 纵向 通信 。 
这 个 体系 结构 视图 是 根据 Glenford Myers (1982) 给 出 的 整理 
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虽 令 集体 系 结构 (Instruction Set Architecture, ISA) HA 1-4 中 的 接口 7 和 8 组 成 ， 它 们 是 
软件 和 硬件 的 分 界 。20 世纪 60 年 代 初 ，IBM 360 大 型 计算 机 系列 开发 时 (Amdahl, Blaauw 和 
Brooks 1964) ， 首 次 明确 地 提出 了 指令 集体 系 结构 的 概念 。 在 那个 项 目 中 ，IBM 充分 认识 到 了 软 
件 兼容 性 的 重要 。 卫 M 360 系列 有 很 多 型 号 ， 可 以 与 很 广泛 的 硬件 资源 协同 工作 ， 从 而 覆盖 了 很 
宽 的 价格 和 性 能 范围 一 一 但 是 ， 它 们 拟 计划 能 运行 相同 的 软件 。 为 了 成 功 地 达到 这 个 目标 ， 必 须 
准确 定义 和 控制 硬件 和 软件 之 间 的 接口 ， 而 指令 集体 系 结构 实现 了 这 个 目标 。 

指令 集体 系 结构 有 两 个 部 分 在 定义 虚拟 机 时 是 很 重要 的 。 第 一 部 分 是 指令 集体 系 结构 中 应 
用 程序 可 见 的 部 分 ， 称 为 用 户 指令 集 (user ISA)。 第 二 部 分 是 只 有 像 操 作 系 统 这 样 的 超级 用 户 
软件 才能 看 到 的 部 分 ， 负责 管 理 硬件 资源 ， 这 部 分 称 为 系统 指令 集 (system ISA) 。 当 然 ， 超 级 
用 户 软件 也 可 以 使 用 所 有 的 用 户 指 令 集 。 在 图 1-4 中 ， 接口 7 仅 由 用 户 指 今 集 组 成 ， 接 口 8 既 包 
括 用 户 指令 集 又 包括 系统 指令 集 。 

本 书 中 我 们 也 关注 指令 集 以 外 的 接口 。 图 1-4 中 ， 应 用 二 进 制 接口 (Application Binary Inter- 
face，ABI) 由 接口 3 和 7 组 成 。 一 个 重要 的 相关 接口 是 应 用 程序 接口 (Application Program In- 
terface ，API) ， 包 括 接口 2 和 7。 

应 用 二 进 制 接口 为 程序 提供 了 访问 硬件 资源 和 使 用 系统 服务 的 能 力 ， 包 括 两 个 主要 组 件 。 
第 一 个 组 件 是 所 有 用 户 指 令 的 集合 (图 1-4 中 的 接口 7); ABI 中 不 包括 系统 指令 。 在 ABI 层 ， 
所 有 应 用 程序 通过 系统 调用 接口 〈 图 1-4 中 的 接口 3) 调用 操作 系统 ， 与 共享 的 硬件 资源 间接 地 
交互 作用 ， 这 是 ABI 的 第 二 个 组 件 。 系 统 调用 提供 一 些 特 有 的 操作 集合 ， 使 操作 系统 可 以 为 用 
户 程序 执行 一 些 功能 〈 但 要 先 通过 检测 来 确定 用 户 程序 的 请 求 已 被 授权 ) 。 系 统 调用 接口 的 实现 
特别 采用 与 过 程 或 子 例 程 调用 类 似 的 方法 ， 使 用 把 控制 权 转 移 给 操作 系统 的 指令 ， 只 是 调用 的 
目标 地 址 被 限制 为 操作 系统 中 的 一 个 特殊 地 址 。 系 统 调 用 的 参数 典型 地 遵循 特殊 的 约定 通过 寄 
存 器 和 /或 存储 器 中 的 栈 来 传递 ， 这 些 约定 是 系统 调用 接口 的 一 部 分 。 编 译 到 特定 ABI 的 程序 二 
进 制 代码 不 需要 修改 就 可 以 在 带 相 同 指令 集 的 操作 系统 的 机 器 上 运行 。 

应 用 编程 接口 通常 用 高 级 语言 (High-level Language, HLL) X., API 的 一 个 关键 部 分 是 
标准 库 (或 库 ) ， 应 用 程序 需要 通过 库 调 用 系统 中 各 种 可 用 的 服务 ， 包 括 操作 系统 提供 的 服务 。 
AP 通常 在 源 代码 级 上 定义 ,使 得 被 写 入 API 的 应 用 程序 很 容易 (通过 再 编译 ) 移植 到 支持 相 
Fj API 的 系统 上 。API 详细 描述 了 服务 的 实现 细节 的 抽象 ， 特 别 是 那些 涉及 特权 硬件 的 服务 。 例 
如 ，clib 是 一 个 著名 的 支持 UNIX/C 编程 语言 的 库 ，clib API 提供 了 一 个 由 代码 段 (存放 代码 )、 
堆 和 栈 〈 存 放 数据 ) 组 成 的 存储 模型 。 属 于 APL 的 例 程 通常 包含 一 个 或 多 个 ABI 级 的 操作 系统 
调用 。 一 些 API 库 例 程 是 对 已 有 程序 的 简单 “包装 ”， 例 如 ， 是 从 高 级 语言 调用 约定 直接 翻译 到 
符合 操作 系统 二 进 制约 定 的 代码 。 其 他 的 API 例 程 则 更 复杂 ， 可 能 包含 几 个 操作 系统 调用 。 


1.2 虚拟 机 基础 


要 理解 “虚拟 机 ”， 首 先 要 讨论 “机 器 ”的 含义 。 前 文中 提 到 的 “机 器 ”含义 与 讨论 时 所 
站 的 角度 有 关 。 从 执行 用 户 程序 的 进程 角度 看 ,“ 机 器 ”由 分 配给 进程 的 逻辑 内 存 地 址 空间 、 用 
户 级 寄存 器 和 人 允许 执行 进程 代码 的 指令 组 成 。 机 器 的 VO 部 分 只 能 通过 操作 系统 看 到 ， 进 程 与 
IO 系统 交互 的 唯一 方法 是 通过 操作 系统 调用 ， 通 常 是 将 系统 库 函 数 作为 进程 的 一 部 分 来 执行 。 
这 种 进程 通常 很 短暂 (虽然 并 不 总 是 如 此 )。 它 们 被 创建 ， 执 行 一 段 时 间 ， 其 间 可 能 派生 其 他 进 
程 ， 最 后 终止 。 总 的 说 来 ， 从 进程 的 角度 看 ， 机 器 由 操作 系统 与 底层 的 用 户 级 硬件 组 合 而 成 。 
ABI 提供 了 进程 与 机 器 之 间 的 接口 (图 1-5a) 。 

从 操作 系统 的 角度 看 ， 整 个 系统 由 底层 机 器 支撑 。 一 个 系统 是 一 个 完整 的 运行 环境 ， 可 以 同 
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时 支持 许多 可 能 属于 不 同 用 户 的 进程 。 所 有 进程 共享 一 个 文件 系统 和 其 他 的 IO 资源 。 进 程 不 断 
地 进 进出 出 ， 系 统 环 境 始 终 存 在 〈 偶 尔 会 重启 ) 。 系 统 为 进程 分 配 物 理 内 存 和 IO 资源 ， 人 允许 进 
程 通过 操作 系统 与 分 配给 它们 的 资源 交互 ， 操 作 系统 是 系统 的 一 部 分 。 因 此 ， 从 系统 的 角度 看 ， 
机 器 仅 由 底层 硬件 实现 ， 指 令 集 提 供 了 系统 和 机 器 之 间 的 接口 〈 图 1-5b) 。 


操作 系统 


| MP ISA f 系统 ISA 用 户 ISA 
en od ABI ~ ee ISA 
LAE 
a) 应 用 二 进 制 接口 ( ABI) b) 指令 集体 系 结构 (ISA ) 接口 


图 1-5 plate 


实际 上 上 ， 在 虚拟 机 上 执行 为 某 种 机 器 开发 的 软件 〈 可 以 只 是 一 个 独立 的 进程 也 可 以 是 一 个 
完整 的 系统 ， 依 赖 于 机 器 的 类 型 ) ， 就 像 在 这 种 机 器 上 执行 一 样 。 和 虚拟 机 是 作为 真实 机 器 和 炭 拟 
软件 的 结合 来 实现 的 。 虚 拟 机 拥有 的 资源 可 能 与 真实 机 器 不 同 ， 要么 是 数量 上 不 同 要 么 是 类 型 
不 同 。 例如， 虚拟 机 拥有 的 处 理 器 数目 可 能 比 真实 机 器 多 也 可 能 比 真实 机 器 少 ， 这 些 处 理 器 可 能 
执行 与 真实 机 器 不 同 的 指令 集 。 需 要 注意 ， 虚 拟 化 并 不 要 求 一 定 要 保持 与 真实 机 器 同样 的 性 能 。 
通常 ， 在 虚拟 机 上 运行 为 真实 机 器 开发 的 软件 时 ， 虚 拟 机 的 性 能 要 差 一 些 。 

如 同 前 面 用 同 态 所 刻 划 的 那样 ， 虚 拟 化 过 程 包含 两 个 部 分 : (1) 把 虚拟 资源 或 状态 ， 如 寄 
存 器 、 存 储 器 、 文 件 ， 映 射 成 底层 机 器 中 的 真实 资源 ; (2) 使 用 真实 机 器 上 的 指令 和 /或 系统 调 
用 来 执行 虚拟 机 的 指令 和 /或 系统 调用 规定 的 活动 ， 如 对 虚拟 机 ABI 或 ISA 的 仿真 。 

对 机 器 可 以 从 进程 和 系统 的 角度 去 理解 ， 相 应 地 也 就 有 进程 级 和 系统 级 虚拟 机 。 顾 名 思 义 ， 

一 台 进 程 虚拟 机 能 够 支持 一 个 独立 的 进程 ， 如 图 1-6 所 示 。 在 这 幅 图 及 后 面 的 图 中 ， 兼容 的 接口 
都 用 带 网 孔 的 边界 图 示 。 在 进程 虚拟 机 中 ， 虚 拟 软件 放 在 ABI 接口 处 ,操作 系统 和 硬件 结合 部 
的 上 层 。 虚 拟 软件 同时 仿真 用 户 级 指令 和 操作 系统 调用 。 


客户 机 | 应 用 进 各 应 用 进程 


Pd hh = 
| P 


图 1-6 进程 虚拟 机 。 虚拟 软件 将 组 成 一 个 平台 的 操作 系统 和 用 户 级 指令 集 翻 译 到 另 一 个 平台 ， 
形成 的 进程 虚拟 机 能 够 执行 为 不 同 的 操作 系统 和 不 同 指令 集 开发 的 程序 


在 图 1-6 中 , REE, 我们 通常 将 底层 平台 (underlying platform) 称 为 主机 《host) ， 将 运行 在 虚 
拟 机 环境 上 的 软件 称 为 客户 机 (guest)。 与 虚拟 机 相对 应 的 真实 平台 ， 即 虚拟 机 要 仿真 的 真实 机 器 ， 
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称 之 为 本 地 机 (native machine) 。 虚 拟 软件 的 名 字 取 决 于 所 实现 的 虚拟 机 的 类 型 。 在 进程 虚拟 机 中 ， 
虚拟 软件 经 常 被 称 为 运行 时 (runtime) ， 这 是 运行 时 软件 9 (runtime software) 的 简称 。 运 行 时 用 于 支 
持 客户 进程 ， 运 行 在 操作 系统 的 上 层 。 虚 拟 机 为 客户 进程 的 执行 和 终止 提供 相应 的 支持 。 

与 进程 虚拟 机 大 不 相同 ， 系 统 虚 拟 机 提供 完整 的 系统 环境 ， 这 个 环境 可 以 支持 操作 系统 及 
其 潜在 的 许多 用 户 进程 。 它 使 客户 操作 系统 能 够 访问 底层 的 硬件 资源 ， 包 括 网 络 、LO， 以 及 台 
式 机 上 的 显示 和 图 形 用 户 界面 。 只 要 系统 环境 是 存在 的 ， 虚 拟 机 就 为 操作 系统 提供 支持 。 

系统 虚拟 机 如 图 1-7 所 示 。 虚 拟 软件 放 在 底层 硬件 机 器 和 传统 软件 之 间 。 在 这 个 特定 的 例子 中 ， 
虚拟 软件 仿真 硬件 ISA， 使 传统 软件 可 以 看 到 一 个 与 硬件 支持 的 ISA 不 同 的 ISA。 当 然 ， 在 许多 系统 虚 
拟 机 中 ， 客 户 机 与 主机 运行 相同 的 ISA。 在 系统 虚拟 机 中 ， 虚 拟 软件 常常 被 称 为 虚拟 机 监视 器 〈Virtu- 
al Machine Monitor，VMM) ， 这 个 术语 在 20 世纪 60 年 代 末 第 一 次 提出 虚拟 机 概念 时 就 开始 使 用 。 








图 1-7 系统 起 拟 机 。 诺 拟 软件 把 一 个 硬件 平台 上 的 ISA BERA 个 ， 以 构成 系统 虚拟 机 ， 
能 够 执行 为 不 同 硬件 集 开发 的 系统 软件 环境 

虚拟 软件 能 够 以 多 种 不 同 的 方式 来 连接 和 适应 许多 主要 的 计算 机 子 系统 ( 见 图 1-8) 。 仿 真 
允许 “混合 和 匹配 ” 跨 平台 的 软件 可 移植 性 ， 很 大 程度 上 增加 了 灵活 性 。 在 这 个 例子 中 (图 1- 
8a) ,一 个 ISA 被 男 一 个 ISA 仿真 。 虚拟 软件 可 以 通过 优化 增强 仿真 ， 即 在 执行 仿真 时 考虑 面向 
实现 的 信息 。 虚 拟 软 件 还 可 以 提供 资源 复制 ,例如 使 单个 硬件 平台 看 上 去 像 多 个 硬件 平台 (图 
1-8b) ， 每 个 平台 都 能 够 运行 一 个 完整 的 操作 系统 和 /或 一 组 应 用 的 集合 。 最 后 ， 可 以 构成 虚拟 机 
形成 各 种 体系 结构 (图 1-8c) ， 从 而 解除 很 多 传统 的 兼容 性 和 资源 的 限制 。 





> TAI A ! TOU 
J Paves b) 复制 虚拟 机 ， 以 使 多 个 操作 c) 组 合 虚拟 机 软件 构成 
仿真 另 一 个 系统 可 以 被 同时 支持 更 复杂 更 灵活 的 系统 


图 1-8 虚拟 机 应 用 的 例子 





O 在 整 本 书 中 ， 我 们 将 用 “mntime” 这 一 单个 名 词 来 描述 进程 虚拟 机 中 的 虚拟 运行 时 软件 。rmun time (两 个 单 
词 ) 用 在 更 一 般 的 场合 ， 指 的 是 一 个 程序 正在 运行 的 时 间 。 
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现在 ,我 们 已 经 做 好 了 描述 一 些 特殊 类 型 虚拟 机 的 准备 ， 可 以 相当 广泛 地 应 用 ， 同 时 我 们 将 
按照 进程 虚拟 机 和 系统 虚拟 机 两 个 主要 类 别 来 讨论 。 需 要 注意 的 是 ,不 同 的 虚拟 机 是 由 不 同 的 
设计 团体 开发 出 来 的 ， 经 常会 使 用 不 同 的 术语 来 描述 类 似 的 概念 和 特性 。 事 实 上 ， 有 时 习惯 于 使 
用 别 的 术语 而 不 是 虚拟 机 来 描述 实际 的 虚拟 机 形式 。 


1.3 进程 虚拟 机 


进程 级 虚拟 机 为 用 户 应 用 程序 提供 虚拟 的 ABI 环境 。 进 程 虚拟 机 的 各 种 不 同 实现 可 以 提供 
复制 、 仿 真 和 优化 。 下 面 各 小 节 将 介绍 每 一 种 进程 虚拟 机 。 


1.3.1 多 道 程 序 设 计 


第 一 种 也 是 最 普通 的 虚拟 机 再 普遍 不 过 了 ， 以 至 于 我 们 都 不 把 它 当 作 一 种 虚拟 机 。 它 是 由 
操作 系统 调用 接口 和 用 户 指令 集 组 合 而 成 的 机 器 ， 执 行 用 户 进程 。 大 多 数 操作 系统 可 以 通过 多 
道 程序 设计 同时 支持 多 个 用 户 进程 ， 每 个 用 户 进程 都 以 为 它 拥 有 整 台 机 器 。 每 个 进程 拥有 自己 
的 地 址 空间 和 对 文件 结构 的 访问 。 操 作 系 统 通过 分 时 共享 硬件 和 管理 底层 资源 使 之 成 为 可 能 。 
实际 上 ， 操 作 系 统 为 并 发 执行 的 每 个 应 用 程序 都 提供 了 一 台 复 制 的 进程 级 虚拟 机 。 


1.3.2 仿真 器 和 动态 二 进 制 翻译 器 


进程 级 虚拟 机 的 一 个 更 具 挑 战 性 的 问题 是 支持 编译 到 一 种 指令 集 的 二 进 制 代码 可 以 在 实现 
另 一 种 指令 集 的 主机 硬件 上 执行 ， 即 在 为 某 个 指令 集 设计 的 硬件 上 仿真 男 一 个 指令 集 。 图 1-9 是 
仿真 进程 虚拟 机 的 一 个 例子 。 应 用 程序 被 编译 到 一 个 源 SA， 但 硬件 实现 了 一 个 不 同 的 目标 
ISA。 在 这 个 例子 中 ， 客 户 进程 的 操作 系统 与 主机 平台 的 操作 系统 是 相同 的 ， 但 在 其 他 情况 下 可 
能 是 不 同 的 。 图 1-9 的 例子 图 释 了 Digital FX!32 系统 (Hookway 和 Herdeg 1997), FX!32 系统 
可 以 在 运行 Windows NT 的 Alpha 硬件 平台 上 运行 为 Windows NT 编译 的 Intel IA-32 二 进 制 应 用 
程序 。 最 近 的 两 个 例子 是 Ares 系统 (Zheng 和 Thompson 2000) 和 Intel IA-32 执行 层 (execution 
layer, EL), Aries 系统 在 IPF (Itanium) 平台 上 支持 PA-RISC 程序 ，IA-32 执行 层 在 PF 平台 上 
支持 IA-32 程序 (Baraz et al. 2003 ) 。 


=} 


IA32 Windows 应 用 
AAAAAA i 


Windows | 





| 


an ae Em taka 


19 ”进程 虚拟 机 仿真 客户 应 用 。Digital FX!32 系统 允许 在 
Alpha Windows 平台 上 运行 Windows IA-32 应 用 


最 简单 直接 的 仿真 方法 是 解释 。 执 行 目标 ISA 的 解释 器 程序 取 指 、 译 码 和 仿真 独立 的 源 指 
令 的 执行 。 这 会 相对 地 降低 程序 的 执行 速度 ， 因 为 每 条 被 解释 执行 的 源 指令 需要 数 十 倍 的 本 地 
目标 指令 来 仿真 。 

为 了 获得 更 高 的 性 能 ， 通 常 使 用 二 进 制 翻译 。 二 进 制 翻译 把 源 指令 块 翻译 成 执行 同样 功能 
的 目标 指令 。 翻 译 过 程 的 开销 相对 较 高 ， 但 一 旦 指令 块 翻译 好 后 ， 翻 译 好 的 指令 被 缓存 起 来 ， 可 
以 重复 执行 ， 获 得 比 解释 执行 更 快 的 执行 速度 。 因 为 二 进 制 翻译 是 这 类 进程 虚拟 机 的 最 重要 特 
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征 ， 因 而 有 时 称 之 为 动态 二 进 制 代码 翻译 器 。 

解释 器 和 二 进 制 翻译 器 有 不 同 的 性 能 特性 。 解 释 器 启动 开销 相对 较 低 ， 但 在 指令 仿真 时 要 
花费 很 多 时 间 。 而 二 进 制 翻译 虽然 初始 开销 很 高 ， 但 以 后 每 次 重复 执行 都 很 快 。 因 此 ， 一 些 虚 拟 
机 采用 结合 使 用 剖析 (profiling) 的 分 阶段 仿真 技术 ， 即 通过 剖析 来 收集 程序 行为 的 统计 信息 。 
一 开始 ， 先 解释 一 个 源 指令 块 ， 并 剖析 哪些 指令 序列 频繁 执行 ， 然 后 对 频繁 执行 的 指令 进行 二 进 
制 翻译 。 一 些 系 统 还 对 执行 频率 很 高 的 代码 的 二 进 制 翻译 结果 做 额外 的 代码 优化 。 在 多 数 做 仿 
真 的 虚拟 机 中 ,一 个 程序 的 整个 执行 过 程 中 都 贯穿 着 解释 和 二 进 制 翻译 。 在 FX!32 中 ， 随 着 程 
序 的 运行 所 做 的 代码 翻译 工作 越 来 越 多 。 


1.3.3 相同 -|ISA 下 的 二 进 制 优化 器 


大 多 数 动态 二 进 制 翻译 器 不 仅 把 源 代 码 翻译 到 目标 代码 ， 还 执行 一 些 代 码 优化 工作 。 这 样 
产生 的 虚拟 机 ， 主 机 与 客户 机 自然 使 用 相同 的 指令 集 ， 这 种 虚拟 机 的 基本 目标 是 执行 二 进 制 代 
码 优化 。 相 同 -ISA 下 的 动态 二 进 制 优化 器 的 实现 与 仿真 虚拟 机 非常 类 似 ， 包 括 分 阶段 优化 和 对 
优化 后 代码 的 软件 缓存 。 相 同 -ISA 下 的 动态 二 进 制 优化 器 最 有 效 的 应 用 是 用 于 没有 优化 的 源 代 
码 ， 实 际 上 这 种 情形 非常 常见 。 动 态 二 进 制 优化 器 能 够 收集 剖析 信息 ， 然 后 使 用 这 些 剖 析 信息 动 
态 地 (on the fly) 优化 二 进 制 代码 。 这 样 的 相同 -ISA 下 的 动态 二 进 制 优化 器 的 一 个 例子 是 Dyna- 
mo 系统 ， 一 开始 Dynamo 系统 是 作为 一 个 研究 项 目 在 Hewlett-Packard FF ASEH (Bala, Dues- 
terwald 和 Banerjia 2000) 。 


1.3.4 高 级 语言 虚拟 机 : 平台 独立 性 


对 前 面 所 述 的 进程 虚拟 机 ， 跨 平台 的 可 移植 性 显然 是 一 个 非常 重要 的 目标 。 例 如 ，FX132 
系统 能 够 把 为 一 个 流行 的 平台 (IA-32 PC) 编译 的 应 用 软件 移植 到 一 个 不 太 流行 的 平台 (Al- 
pha) 上 。 然 而 ， 这 种 方法 允许 的 跨 平 台 兼 容 性 仅 以 具体 情况 具体 对 待 为 基础 ， 而 且 需 要 大 量 的 
编程 工作 。 例 如 ， 如 果 想 在 现 有 的 许多 硬件 平台 如 SPARC, PowerPC 及 MIPS 上 运行 IJA-32 二 进 
制 代 码 ， 就 需要 为 每 一 个 硬件 平台 开发 一 个 类 似 于 FX! 32 虚拟 机 的 系统 。 当 主机 平台 运行 的 操 
作 系统 与 编译 二 进 制 代码 时 运行 的 操作 系统 不 一 样 时 ， 这 个 问题 就 更 难 解决 。 

如 果 我 们 能 退 一 步 ， 在 一 个 全 面 的 软件 框架 下 设计 虚拟 机 ， 达 到 充分 的 跨 平台 可 移植 性 将 
容易 得 多 。 一 种 实现 方法 是 在 正在 定义 应 用 开发 环境 的 同时 设计 进程 虚拟 机 。 这 个 虚拟 机 环境 
不 与 任何 实际 的 平台 直接 对 应 ， 而 是 与 开发 应 用 程序 所 用 的 高 级 语言 (HLL) 的 特点 匹配 ， 从 
而 更 容易 实现 可 移植 性 。 这 些 高 级 语言 虚拟 机 (HLL VMs) 与 前 面 介绍 的 进程 虚拟 机 类 似 ， 但 
它们 把 重点 放 在 将 硬件 和 操作 系统 特性 对 平台 独立 性 的 影响 减 到 最 小 。 

高 级 语言 虚拟 机 最 早 是 随 着 Pascal 编程 环境 开始 流行 的 《Bowles 1980) 。 如 图 1-10a 所 示 ， 
在 传统 系统 中 ， 编 译 器 包括 一 个 执行 词法 、 语 法 和 语义 分 析 的 前 端 ， 它 会 生成 简单 的 中 间 代 
码 一 一 类 做 于 机 器 代码 但 更 抽象 。 例 如 ， 这 种 中 间 代 码 通常 不 包括 具体 的 寄存 器 分 配 。 然 后 一 个 
代码 生成 器 接收 中 间 代码 ， 生 成 面向 特定 的 ISA 和 操作 系统 的 二 进 制 机 器 代码 。 这 些 二 进 制 文 
件 被 分 发 ， 并 且 在 支持 编译 时 给 定 的 ISA 和 操作 系统 的 平台 上 执行 。 如 果 想 在 其 他 不 同 的 平台 
上 执行 这 个 程序 ， 就 必须 在 那个 平台 上 重新 编译 。 

高 级 语言 虚拟 机 改变 了 这 种 模式 (图 1-10b) 。 它 的 编译 步骤 类 似 于 传统 的 模式 ， 但 在 更 高 
层次 上 分 发 程序 的 代码 。 如 图 1-10b 所 示 ， 传 统 的 编译 器 前 端 生成 抽象 的 机 器 代码 ， 这 些 代码 非 
常 类 似 于 一 种 中 间 形 式 。 在 许多 高 级 语言 虚拟 机 中 ， 这 种 中 间 形 式 是 一 种 相当 普通 的 基于 栈 的 
ISA。 这 个 虚拟 ISA 实际 上 就 是 虚拟 机 的 机 器 代码 。 可 移植 的 虚拟 ISA 代码 可 以 被 分 发 ， 在 不 同 
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的 平台 上 执行 。 每 一 个 平台 都 要 实现 能 执行 虚拟 ISA 的 虚拟 机 。 最 简单 的 虚拟 机 形式 是 包含 一 
个 解释 器 ， 它 取 指 ， 译 码 ， 执 行 所 需要 的 状态 转换 ( 例如， 内 存 和 栈 的 状态 ) YO 功能 由 一 组 
标准 的 库 函数 完成 ， 这 个 标准 库 是 虚拟 机 的 一 部 分 。 在 更 复杂 和 更 高 性 能 的 虚拟 机 中 ， 抽 象 的 机 
器 代码 被 编译 成 〈 通 过 二 进 制 翻译 ) 可 以 在 主机 平台 上 直接 执行 的 主机 的 机 器 代码 。 


高 级 语言 程序 





虚拟 机 解释 器 





a) 传统 系统 ， 分 发 的 是 依赖 于 b) HLL 虚拟 机 环境 ， 可 移植 的 中 间 代 码 
平台 的 目标 代码 在 其 内 被 依赖 于 平台 的 虚拟 机 执行 


图 1-10 ”高 级 语言 环境 


一 旦 在 目标 平台 上 实现 了 高 级 语言 虚拟 机 ， 这 个 虚拟 机 就 具有 软件 更 容易 移植 的 优点 。 虽 
然 虚拟 机 的 实现 需要 费 点 力 ， 但 为 每 一 平台 开发 编译 器 的 任务 会 简单 得 多 ， 为 每 个 要 移植 的 应 
用 重新 编译 也 更 容易 。 而 且 ， 这 种 方法 与 为 实际 的 ISA 开发 一 个 传统 的 仿真 进程 虚拟 机 比 起 来 
也 更 简单 。 

Sun 微 系 统 公司 的 Java 虚拟 机 体系 结构 (Lindholm 和 Yellin 1999) 、 微 软 公 司 的 公共 语言 基 
础 结构 (Common Language Infrastructure, CLI) 是 最 近 广泛 使 用 的 高 级 语言 虚拟 机 的 例子 ，CLI 
Æ. NET 框架 (Box 2002) 的 基础 。Java 虚拟 机 和 CLI 的 核心 是 平台 独立 性 和 高 安全 性 。 这 两 个 
系统 的 ISA 都 是 基于 字 节 码 (bytecodes) 的 ， 即 指令 都 被 编码 成 一 个 字 节 序列 ， 每 个 字 节 是 一 
个 操作 码 或 一 个 单字 节 的 操作 数 ， 或 者 是 多 字 节 操作 数 的 一 部 分 。 这 些 字 节 码 指令 集 是 基于 栈 
的 (用 于 消除 对 寄存 器 的 需要 ) ， 有 一 个 抽象 的 数据 规范 和 存储 器 模型 。 事 实 上 ， 存 储 器 的 大 小 
在 概念 上 是 没有 限制 的 ， 假 定 境 圾 收集 器 是 实现 的 一 部 分 。 由 于 基于 Java 或 CLI 的 程序 要 求 能 
在 所 有 的 刹 件 平台 上 执行 ， 因此， 并 不 针对 其 体 的 操作 系统 来 编译 应 用 ， 而 是 提供 一 组 标准 库 作 
为 整个 执行 环境 的 一 部 分 。 


1.4 系统 虚拟 机 


系统 虚拟 机 提供 一 个 完整 的 系统 环境 ,在 这 个 环境 里 属于 多 个 用 户 的 许多 进程 可 以 共存 。 
早 在 20 世纪 60 年 代 和 20 世纪 70 年 初 人 们 就 开始 研发 系统 虚拟 机 ， 从 这 时 起 就 开始 使 用 “虚拟 
机 ”这 个 术语 。 借 助 系统 虚拟 机 ， 单 个 主机 硬件 平台 可 以 同时 支持 多 个 客户 机 操作 系统 环境 。 
刚 开 始 开发 虚拟 机 时 ， 大 型 计算 机 系统 非常 大 而 且 非 常 昂贵 ， 总 是 被 许多 用 户 共 享 。 不 同 的 用 户 
组 有 时 希望 在 共享 的 硬件 上 运行 不 同 的 操作 系统 ， 虚 拟 机 能 达到 这 个 有 的 。 虚 拟 机 的 另 一 种 用 
法 是 ， 通 过 单 用 户 操作 系统 的 多 样 性 也 能 方便 地 实现 多 用 户 之 间 分 时 共享 硬件 。 随 着 时 间 的 推 
移 ， 硬 件 变 得 越 来 越 便宜 ， 开 始 流行 台式 机 ， 人 们 对 这 种 类 型 的 虚拟 机 逐渐 失去 了 兴趣 。 

然而 现在 系统 虚拟 机 又 重新 开始 流行 ， 部 分 原因 是 系统 虚拟 机 的 传统 研发 动因 有 了 新 变化 。 
过 去 大 而 贵 的 大 型 机 系统 相当 于 现在 的 服务 器 或 服务 器 簇 ， 这些 服务 器 也 是 被 多 个 用 户 或 用 户 
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组 共享 的 。 现 在 的 系统 虚拟 机 最 大 的 特点 可 能 在 于 : 为 相同 硬件 平台 上 并 发 运行 的 主要 软件 系 
统 提供 安全 的 划分 方法 ， 将 在 不 同 的 客户 机 系统 上 运行 的 软件 相互 隔离 。 进 一 步 地 ， 如 果 一 台 客 
户 机 系统 上 的 安全 性 受到 威胁 或 者 这 台 客 户 机 的 操作 系统 出 错 ， 在 男 一 台 客 户 机 系统 上 运行 的 
软件 不 会 受到 影响 。 对 用 户 来 说 ， 现 代 系 统 虚拟 机 男 一 个 吸引 人 的 地 方 是 同时 支持 多 个 不 同 的 
操作 系统 ， 例 如 ，Windows 和 Linux (如 图 1-11 所 示 )。 

”Windows 应 用 Linux 应 用 | 


i 
| 
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| 
| 
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| Windows | | | Linux | 
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图 1-11 在 同一 硬件 上 支持 多 操作 系统 环境 的 系统 虚拟 机 


在 系统 虚拟 机 中 ，VMM 的 一 个 主要 特色 是 提供 了 对 平台 的 复制 ， 其 核心 问题 是 如 何在 多 个 
客户 机 操作 系统 环境 之 间 划 分 同一 套 硬件 资源 。VMM 可 以 访问 并 管理 所 有 的 硬件 资源 。 客 户 机 
操作 系统 和 编译 到 这 个 操作 系统 上 的 应 用 程序 都 由 VMM 管理 。 实 现 的 方法 是 ， 构 建 一 个 这 样 的 
系统 ， 当 客户 机 操作 系统 要 执行 一 个 特定 的 操作 时 ， 例 如 直接 访问 共享 硬件 资源 的 特权 指令 ， 这 
个 操作 由 VMM 来 解释 并 检查 正确 性 ， 再 由 VMM 蔡 客 户 机 执行 。 客 户 机 软件 不 知道 VMM 是 在 
后 台 做 这 些 事情 的 。 


1.4.1 系统 虚拟 机 的 实现 


从 用 户 的 角度 看 ， 大 多 数 系统 虚拟 机 提供 的 功能 或 多 或 少 都 差不多 ， 不 同 的 只 是 它们 的 实 
现 。 如 1.2 节 中 讨论 的 那样 ， 计 算 机 系统 中 有 许多 接口 ， 这 使 得 确定 系统 VMM 软件 的 位 置 有 许 
多 选择 。 下 面 总 结 两 种 较 重要 的 实现 。 

图 1-11 所 示 的 是 系统 虚拟 机 体系 结构 的 典型 方法 (Popek 和 Goldberg 1974), VMM 最 早 是 直 
接 安装 在 裸 机 上 的 ， 上 面 再 装 上 虚拟 机 。VMM 在 最 高 特权 模式 下 运行 ， 而 客户 机 系统 运行 时 的 特 
权 要 少 一 些 。 在 此 前 提 下 ，VMM 以 一 种 完全 透明 的 方式 ， 拦 截 并 执行 所 有 客户 机 操作 系统 发 出 的 
与 硬件 资源 交互 的 动作 。 这 种 系统 虚拟 机 体系 结构 在 很 多 方面 都 是 最 高 效 的 ， 它 以 基本 平等 的 方式 
为 所 有 客户 机 系统 提供 服务 。 这 类 系统 的 一 个 缺点 是 ， 至 少 对 桌面 机 用 户 来 说 ， 在 安装 它 之 前 ， 要 
求 清除 硬件 上 现 有 的 操作 系统 ， 从 头 开始 ， 先 装 上 VMM， 然 后 再 在 其 上 安装 客户 机 操作 系统 。 另 
一 个 缺点 是 VO 设备 驱动 器 在 安装 VMM 时 必须 可 用 ， 因 为 VMM 要 与 VO 设备 直接 交互 。 

一 种 可 选 的 系统 VMM 的 实现 方法 是 在 现 有 的 主机 操作 系统 上 构造 虚拟 软件 一 一 构成 一 台所 
谓 的 宿主 虚拟 机 (hosted VM) 。 宿 主 虚 拟 机 的 安装 过 程 类 似 于 应 用 程序 的 安装 。 此 外 ， 虚 拟 软 
件 可 以 依赖 主机 操作 系统 提供 设备 驱动 和 其 他 低层 服务 ， 不 需要 VMM 的 支持 。 这 种 虚拟 机 的 缺 
点 是 会 损失 一 些 效率 ， 因 为 当 请 求 操作 系统 服务 时 要 通过 更 多 的 软件 层次 。VMware 的 实现 就 用 
Bl STG EMU (VMware 2000) ， 它 是 一 种 在 IA-32 硬件 平台 上 运行 的 现代 系统 虚拟 机 。 


1.4.2 全 系统 虚拟 机 : 仿真 
前 面 描述 的 传统 系统 虚拟 机 中 ， 所 有 的 系统 软件 〈 包 括 客户 机 和 主机 ) 及 应 用 软件 都 使 用 
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相同 的 ISA 作为 底层 硬件 。 但 在 有 些 重 要 情形 下 ， 客 户 机 和 主机 系统 并 不 使 用 相同 的 ISA。 例 
如 ， 基 于 Apple PowerPC 的 系统 和 Windows PCs 的 系统 使 用 的 是 不 同 的 ISA (和 不 同 的 操作 系 
统 ) ， 它 们 是 现在 最 流行 的 两 种 桌面 系统 。 再 例如 ，Sun 微 系统 的 服务 器 与 通常 作为 客户 机 访问 
它们 的 Windows PCs 使 用 的 是 不 同 的 操作 系统 和 ISA。 由 于 软件 系统 与 硬件 系统 绑 定 得 如 此 紧 
密 ， 用 户 需 要 购买 多 种 不 同类 型 的 平台 ,使 软件 支持 变 得 复杂 化 ， 并 且 限 制 用 户 对 软件 包 的 使 
用 ,这 样 做 是 毫 无 道理 的 。 

这 些 因素 促使 了 将 所 有 软件 虚拟 化 的 全 系统 虚拟 机 (Whole System VMs) 的 诞生 。 在 这 种 
虚拟 机 上 ， 在 运行 不 同 ISA 和 操作 系统 的 主机 系统 上 支持 完整 的 软件 系统 ， 包 括 操 作 系 统 和 应 
用 程序 。 由 于 ISA 不 同 ， 应 用 程序 和 操作 系统 代码 都 要 通过 像 二 进 制 翻译 这 样 的 技术 来 仿真 。 全 
系统 虚拟 机 最 普遍 的 实现 方法 是 把 VMM 和 客户 软件 放 在 运行 在 硬件 上 的 传统 主机 操作 系统 的 
FE. 

图 1-12 描述 在 传统 系统 上 构造 的 全 系统 虚拟 机 ， 它 有 自己 的 操作 系统 和 应 用 程序 。 这 种 类 
型 虚拟 机 的 一 个 例子 是 Virtual PC (Trant 1997) ， 它 能 够 在 Macintosh 平台 上 运行 Windows 系统 。 
这 种 虚拟 机 软件 如 同一 个 被 主机 操作 系统 所 支持 的 应 用 程序 那样 执行 ， 不 使 用 任何 系统 ISA 操 
作 。 这 就 好 像 是 在 主机 操作 系统 和 硬件 上 实现 了 一 个 由 虚拟 机 软件 、 客 户 操作 系统 和 客户 应 用 
程序 组 成 的 非常 大 的 应 用 程序 ， 同 时 主机 操作 系统 还 能 像 图 中 右 侧 所 示 的 那样 继续 支持 编译 到 
本 地 ISA 的 应 用 程序 。 
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图 1-12 全 系统 虚拟 机 ， 支 持 客户 机 操作 系统 、 客 户 应 用 和 主机 应 用 


为 了 实现 这 种 类 型 的 系统 虚拟 机 ， 虚 拟 机 软件 必须 仿真 整个 硬件 环境 ， 必 须 控制 对 所 有 指 
令 的 仿真 ， 必 须 把 客户 机 系统 的 ISA 操作 转化 为 主机 操作 系统 上 等 价 的 操作 系统 调用 。 即 使 使 
用 二 进 制 翻译 也 仍然 受到 很 大 的 限制 ， 因 为 翻译 得 到 的 代码 通常 不 能 利用 底层 系统 的 ISA 在 虚 
拟 内 存 管 理 和 陷阱 处 理 等 方面 的 特色 。 此 外 ， 如 果 主 机 和 客户 机 的 硬件 资源 性 质 明 显 不 同 ， 就 会 
出 现 问题 。 解 决 这 些 不 匹配 的 问题 是 实现 全 系统 虚拟 机 面临 的 主要 挑战 。 


1.4.3 协同 设计 虚拟 机 : 硬件 优化 


到 现在 为 止 ， 在 所 讨论 的 所 有 虚拟 机 模型 中 ， 设 计 目标 都 是 面向 功能 性 和 可 移植 性 一 一 无 
论 是 在 同一 个 主机 平台 上 支持 多 个 (可 能 不 同 的 ) 操作 系统 ， 还 是 在 一 个 主机 平台 上 同时 支持 
不 同 的 ISA 和 操作 系统 。 实 际 上 ， 这 些 虚 拟 机 是 在 为 一 些 已 经 存在 的 标准 的 ISA 和 本 地 (宿主 ) 
的 应 用 、 库 和 操作 系统 而 开发 的 硬件 上 实现 的 。 基 本 上 ， 提 高 性 能 (如 提高 本 地 平台 的 性 能 ) 
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并 不 是 目的 一 一 实际 上 ， 性 能 目标 只 是 把 性 能 损失 降 到 最 小 。 

协同 设计 虚拟 机 的 目的 和 实现 方法 与 此 不 同 。 设 计 这 种 虚拟 机 的 目标 是 为 了 能 够 创建 新 的 
ISA， 以 及 改善 硬件 实现 的 性 能 和 功 耗 。 宿 主机 的 ISA 可 能 是 全 新 的 ， 也 可 能 是 在 现 有 的 ISA 中 
增加 一 些 新 的 指令 和 /或 删除 一 些 指 令 。 在 协同 设计 虚拟 机 中 ， 没 有 本 地 ISA 的 应 用 ， 这 就 好 像 
虚拟 机 软件 实际 上 是 硬件 实现 的 一 部 分 。 

在 某 些 方面 ， 协 同 设计 虚拟 机 有 点 类 似 于 在 许多 高 性 能 超标 量 微 处 理 器 中 使 用 的 纯 硬 件 虚 
拟 化 方法 。 在 这 些 设计 中 ， 硬 件 将 结构 寄存 器 重 命名 到 大 量 的 物理 寄存 器 中 ， 将 复杂 指令 分 解 成 
简单 的 类 RISC 指令 〈Hennesssy 和 Patterson 2002) 。 但 是 ， 在 这 本 书 中 ， 我 们 着 眼 于 软件 实现 的 
协同 设计 虚拟 机 ; 因为 用 软件 实现 ， 所 以 二 进 制 翻译 可 以 覆盖 更 大 的 范围 并 且 更 加 灵活 。 

由 于 协同 设计 虚拟 机 软件 的 目的 是 提供 一 个 看 起 来 像 本 地 硬件 平台 的 虚拟 机 平台 ， 它 的 软 
件 部 分 使 用 了 一 个 对 任何 应 用 或 系统 软件 都 不 可 见 的 存储 区 域 。 启 动 时 ， 这 个 隐藏 的 存储 空间 
从 物理 存储 空间 中 划分 出 来 ， 传 统 的 客户 机 软件 意识 不 到 它 的 存在 。 驻 留 在 这 个 隐蔽 存储 空间 
里 的 VMM 代码 可 以 在 任何 时 候 控 制 硬 件 ， 完 成 许多 不 同 的 功能 。 更 一 般 地 ， 虚 拟 机 软件 包含 了 
一 个 二 进 制 翻 译 器 ， 用 来 把 客户 机 指令 转换 为 本 地 ISA 指令 ， 然 后 把 翻译 好 的 指令 缓存 在 这 个 
隐蔽 存储 空间 中 的 一 个 区 域 。 因 此 ， 客 户 机 ISA 从 不 直接 在 硬件 上 执行 。 当 然 ， 解 释 也 可 用 来 补 
充 二 进 制 翻译 的 不 足 ， 取 决 于 性 能 折 中 的 要 求 。 为 了 提高 性 能 ， 翻 译 还 与 代码 优化 结合 。 可 以 在 
翻译 时 优化 执行 频率 高 的 代码 序列 ， 和 /或 在 程序 运行 过 程 中 进行 优化 。 

协同 设计 虚拟 机 最 著名 的 例子 可 能 要 算 Transmeta Crusoe (Halfhill 2000) 了 。 在 这 个 处 理 器 
中 ， 底 层 硬件 采用 本 地 VLIW 指令 集 ， 客 户 机 ISA 则 是 Intel IA-32。 在 这 个 实现 中 ，Transmeta 的 
设计 者 侧重 考虑 的 是 用 较 简 单 的 VLIW 硬件 获得 节省 功 耗 的 优点 。 一 个 依靠 许多 协同 设计 虚拟 机 
技术 的 重要 计算 机 系统 是 IBM AS/400 系统 (Soltis 1996), AS/400 不 同 于 其 他 的 协同 设计 虚拟 
机 ， 因 为 它 的 基本 设计 目标 是 支持 面向 对 象 的 指令 集 ， 这 个 指令 集 用 新 的 方式 重新 定义 了 软件 / 
硬件 接口 。 目 前 的 AS/400 实现 是 基于 扩展 的 PowerPC ISA， 虽 然 以 前 的 版 本 使 用 了 一 个 相当 不 
同 的 、 专 有 的 CISC ISA。 
1.5 一 种 分 类 方法 

我 们 刚刚 相当 广泛 地 讨论 了 各 种 虚拟 机 ， 它 们 有 不 同 的 设计 目标 和 实现 方法 。 为 了 把 它们 
放 在 一 个 视角 中 讨论 ， 把 它们 的 共同 实现 点 组 织 起 来 ， 我们 引入 了 如 图 1-13 所 示 的 分 类 方法 。 
首先 ， 将 虚拟 机 分 为 两 个 主要 类 型 :进程 虚拟 机 和 系统 虚拟 机 。 第 一 类 虚拟 机 支持 一 个 ABI 
用 户 指 令 加 上 系统 调用 ; 第 二 类 支持 完整 的 ISA 一 一 包括 用 户 指令 和 系统 指令 。 在 这 个 分 类 法 中 
更 细 的 划分 基于 客户 机 与 主机 是 否 使 用 了 相同 -ISA。 

图 1-13 左边 是 进程 虚拟 机 ， 一 部 分 是 主机 和 客户 机 指令 集 相 同 的 虚拟 机 。 图 中 ， 我 们 区 别 
两 个 例子 ,一 个 是 多 道 程序 设计 系统 ， 这 已 经 被 大 多 数 现 代 系 统 支 持 ; 另 一 个 是 相同 -ISA 下 的 
二 进 制 优化 器 ， 仅 仅 优化 客户 机 指令 ， 然 后 在 本 地 机 上 执行 。 

另 一 部 分 是 客户 机 和 主机 指令 集 不 同 的 虚拟 机 ， 我 们 也 给 出 两 个 例子 。 一 个 是 动态 翻译 器 ， 
另 一 个 是 高 级 语言 虚拟 机 。 高 级 语言 虚拟 机 通过 虚线 与 虚拟 机 分 类 连接 ， 表 示 它 们 的 进程 级 接 
口 的 层次 与 其 他 进程 虚拟 机 不 同 ， 处 在 一 个 更 高 的 层次 上 。 

图 1-13 的 右边 是 系统 虚拟 机 。 如 果 客 户 机 和 和 主机 使 用 相同 -ISA， 包括“ 标准 ”系统 虚拟 机 
和 宿主 虚拟 机 两 种 情况 。 这 些 虚 拟 机 的 目标 是 要 提供 多 份 复制 的 且 隔 离 的 系统 环境 。 标准 虚拟 
机 和 宿主 虚拟 机 的 主要 区 别 在 于 VMM 的 实现 ， 而 不 是 它们 为 用 户 提 供 的 功能 。 

如 果 客 户 机 和 主机 的 ISA 不 同 ， 包 括 全 系统 虚拟 机 和 协同 设计 虚拟 机 两 种 情形 。 在 全 系统 
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虚拟 机 中 ， 与 精确 的 功能 性 相 比 性 能 是 第 二 位 的 ; 而 在 协同 设计 虚拟 机 中 ， 人 性 能 〈 和 功率 ) 通 
常 是 最 主要 的 日 的 。 在 这 个 图 中 ,协同 设计 虚拟 机 用 虚线 连接 ， 因 为 它们 的 接口 与 其 他 系统 虚拟 
机 相 比 处 于 较 低 的 层次 。 


进程 虚拟 机 系统 虚拟 机 






不 同 -ISA 不 同 -ISA 






相同 ISA 
多 道 程序 系统 动态 翻译 器 | ， 标 准 系统 虚拟 机 ”全 系统 虚拟 机 
”动态 二 进 制 优化 器 高 级 语言 虚拟 机 ; 。 主机 虚拟 机 协同 设计 虚 氢 机 


1-13 ”虚拟 机 分 类 法 


1.6 总 结 : 虚拟 机 功能 的 多 样 性 


为 了 很 好 地 总 结 这 章 ， 我 们 用 一 个 当前 已 经 令 人 信服 的 现 

22 实 系 统 的 例子 来 说 明 (图 1-14) 。 这 个 例子 清楚 地 表明 了 虚拟 
D| 机 技术 的 多 功能 性 。 一 个 计算 机 用 户 可 以 在 笔记 本 电脑 上 运行 | VMware 
Java 应 用 是 再 平常 不 过 了 ; 只 要 为 IA-32/Linux 开发 一 个 Java 


Java 应 用 
JVM 


Linux |A-32 


虚拟 机 就 行 了 。 然 而 ， 用 户 有 时 要 在 Windows PC 上 运行 VM- Windows 1A-32 
ware， 再 通过 VMware 将 Linux 安装 成 一 个 操作 系统 虚拟 机 。 | 代码 变形 
此 时 ，IA-32 硬件 实际 上 是 Transmeta Cmsoe， 它 是 一 个 实现 了 Crusoe VLIW 


VLIW ISA 的 协同 设计 虚拟 机 ， 通 过 二 进 制 翻译 器 ( Transmeta 图 1.14 =E Java 应 用 运 
称 之 为 代码 变形 ) 来 支持 IA-32 ISA。 通 过 使 用 多 种 虚拟 机 技 图 1 4 EBM, Java 应 用 到 
R, Java 字 节 码 程序 实际 执行 在 本 地 VLIW 上 。 行 在 Java 虚拟 机 上 ，Java 虚拟 机 运 

行 在 系统 虚拟 机 上 ， 系 统 虚 拟 机 运 


1.7 本 书 的 其 他 部 分 行 在 协同 设计 虚拟 机 上 


这 本 书 可 以 沿 着 上 面 描述 的 虚拟 机 分 类 的 分 界线 分 为 两 个 主要 部 分 。 第 2 章 到 第 6 章 主要 涉 
及 进程 虚拟 机 ， 第 7 章 到 第 9 章 主要 涉及 系统 虚拟 机 。 
现在 很 容易 看 到 指令 集 仿真 是 许多 虚拟 机 实现 的 一 种 重要 的 支撑 技术 。 由 于 它 的 重要 性 ， 
我 们 在 第 2 章 就 从 详细 地 讨论 仿真 开始 。 仿 真 包括 解释 和 二 进 制 翻译 ， 解 释 是 用 简单 的 方式 一 条 
一 条 地 仿真 客户 机 指令 ， 二 进 制 翻译 是 把 客户 机 指令 块 翻译 到 主机 平台 上 的 INA， 然 后 保存 起 来 
用 于 多 次 执行 。 许 多 虚拟 机 的 实现 显然 需要 用 到 仿真 (如 ， 当 客户 机 和 主机 ISA 不 同时 ) ， 但 
是 ， 正 如 我 们 将 要 看 到 的 ， 由 于 一 些 不 太 明显 的 原因 ， 仿 真 技术 在 其 他 虚拟 机 中 也 是 重要 的 
(甚至 当 客 户 机 和 主机 使 用 相同 -ISA 的 情况 下 ) 。 一 个 例子 是 Shade 仿真 系统 ， 这 个 系统 结合 了 
许多 仿真 技术 。 . 
第 3 章 以 仿真 为 出 发 点 描述 进程 虚拟 机 总 体 结构 和 实现 ， 包 括 对 高 速 缓存 二 进 制 翻译 的 管理 


EMP HE 15 





和 一 些 复 杂 问 题 的 处 理 ， 如 精确 陷阱 和 自修 改 代码 。DEC/Compaq FX! 32 系统 就 是 这 样 一 个 例 
子 。 这 个 系统 在 Windows/ Alpha 平台 上 支持 Windows/IA-32 客户 机 二 进 制 代码 。 

由 于 仿真 过 程 通常 都 要 损失 一 些 性 能 ， 因 此 性 能 总 是 虚拟 机 实现 的 一 个 问题 。 通 过 优化 翻 
译 好 的 二 进 制 代码 ， 可 以 减轻 这 些 性 能 损耗 ， 第 4 章 介 绍 动态 优化 翻译 后 的 二 进 制 代码 的 方法 。 
首先 ， 讨 论 增加 翻译 后 代码 块 大 小 的 方法 ， 然 后 介绍 一 些 特定 的 优化 方法 。 代 码 优化 包括 用 指令 
重 排序 提高 流水 线 效 率 ， 以 及 其 他 许多 典型 的 适合 动态 优化 翻译 后 的 二 进 制 代码 的 编译 器 优化 
方法 。 在 源 和 目标 ISA 相同 的 特殊 情况 下 ， 虚 拟 机 的 主要 功能 是 优化 。 因 此 ， 第 4 章 针 对 相同 - 
ISA 下 动态 二 进 制 优化 的 特点 进行 讨论 ， 并 给 出 HP 的 Dynamo 系统 作为 一 个 案例 。 

第 5 章 和 第 6 章 讨论 高 级 语言 (HLL) 虚拟 机 。 设 计 这 些 虚 拟 机 是 为 了 得 到 平台 无 关 性 。 为 
了 历史 地 看 待 这 个 问题 ， 第 5 章 以 对 Pacal P-code 的 描述 作为 出 发 点 。 由 于 现代 HLL 虚拟 机 倾向 
于 支持 网 络 计算 和 面向 对 象 编 程 ， 因 此 我 们 将 强调 支持 这 些 方面 的 重要 特性 。 我 们 将 一 定 程 度 
地 详细 讨论 Java 虚拟 机 体系 结构 ， 同 时 也 会 简要 讨论 Microsoft 的 公共 语言 基础 结构 (CLI). 
CLI 的 目标 和 应 用 范围 都 比 Java 广泛 ， 讨 论 主 要 集中 在 提供 这 些 更 宽 范 围 的 目标 和 应 用 的 特点 
上 。 第 6 章 从 基本 实现 方法 和 技术 开始 描述 HLL 虚拟 机 的 实现 。 然 后 ， 以 IBM Jikes RVM (re- 
search VM) 为 例 ， 介 绍 高 性 能 的 HLL 虚拟 机 的 实现 。 

第 7 章 的 主题 是 讨论 最 初 的 系统 级 虚拟 机 : 协同 设计 虚拟 机 。 协 同 设计 虚拟 机 范例 包括 用 特 
殊 的 硬件 支持 来 提高 仿真 的 性 能 。 因 此 ， 这 章 的 大 部 分 内 容 集 中 于 介绍 基于 硬件 的 性 能 增强 。 这 
章 使 用 的 两 个 案例 是 Transmeta Crusoe 和 IBM AS/400 系统 。 

第 8 章 包 括 传统 的 系统 虚拟 机 一 一 这 种 虚拟 机 同时 支持 多 个 OS， 主 要 依赖 于 软件 技术 。 我 
们 主要 讨论 系统 虚拟 机 实现 的 基本 机 制 和 如 何 增强 性 能 。 某 些 ISA 比 其 他 的 ISA 更 容易 被 虚拟 
化 ,我 们 将 会 讨论 那些 容易 被 虚拟 化 的 ISA 的 特点 。IBM 360-390 + 系列 的 虚拟 机 作为 贯穿 全 章 
的 案例 。 最 近 开 发 的 以 IA-32 平台 为 目标 的 VMware 宿主 虚拟 机 也 是 这 章 要 讲 的 另 一 个 重要 的 
例子 。 

把 虚拟 化 应 用 到 多 处 理 器 系统 是 第 9 章 的 主题 。 我 们 的 主要 兴趣 集中 在 如 何 将 大 的 共享 存储 
多 处 理 器 系统 的 资源 划分 成 许多 小 的 虚拟 多 处 理 器 系统 。 这 些 技 术 可 用 多 种 方法 实现 ， 从 依赖 
微 代码 支持 的 方法 延伸 到 纯 软 件 的 方法 。 然 后 讨论 在 多 处 理 器 环境 下 ISA 的 仿真 。 昌 然 大 多 数 
仿真 技术 与 单 处 理 器 是 相同 的 ， 存 储 排序 (memory ordering) 的 约束 会 带 来 一 些 新 的 问题 。 在 
这 章 我 们 将 讨论 两 个 例子 ，IBM 逻辑 分 区 (LPAR) 和 Stanford Disco 研究 虚拟 机 。 

最 后 的 第 10 章 是 总 结 篇 ， 对 未 来 进行 展望 ， 考 虑 许多 发 展 中 的 有 前 途 的 虚拟 机 应 用 。 其 中 
包括 支持 系统 安全 性 、 网 格 计算 和 虚拟 系统 的 可 移植 性 。 

这 本 书 还 给 了 一 个 附录 ， 回 顾 实 际 机 器 的 重要 性 质 ， 侧 重 于 讨论 在 实现 虚拟 化 时 将 会 涉及 
的 体系 结构 和 实现 的 一 些 重要 方面 。 某 些 读者 可 能 很 熟悉 这 些 材料 ， 但 是 其 他 一 些 读者 在 阅读 
这 本 书 之 前 浏览 附录 可 能 会 很 有 帮助 。 附 录 的 结尾 为 IA-32 和 PowerPC ISA 的 简介 ， 它 们 是 许多 
例子 的 基础 。 
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第 2 章 仿真: 解释 和 二 进 制 翻译 


许多 虚拟 机 都 是 基于 仿真 来 实现 的 。 所 谓 仿真 就 是 在 一 个 具有 某 种 接口 和 功能 的 系统 或 子 
系统 上 实现 另 一 种 与 之 具有 不 同 接口 和 功能 的 系统 或 子 系统 的 过 程 。 例 如 ，_ 个 运行 在 PC 窗口 
里 的 VT100 终端 仿真 器 向 它 的 使 用 者 展现 了 一 个 几乎 与 真实 的 VT100 终端 一 样 的 接口 和 功能 。 
实际 上 ， 一 般 可 以 认为 虚拟 化 本 身 就 是 一 种 简 单 形式 的 仿真 。 但 在 本 章 里 ， 我 们 给 出 的 仿真 是 狭 
义 上 的 ， 是 特定 地 将 它 应 用 于 指令 集 的 。 

指令 集 仿真 是 许多 虚拟 机 实现 的 一 个 主要 方面 ， 其 原因 在 于 虚拟 机 必须 支持 为 _ 种 指令 集 
编译 的 程序 二 进 制 代码 ， 而 这 种 指令 集 与 主机 处 理 器 实现 的 指令 集 有 所 不 同 。 例 如 ， 由 于 Intel 
的 IA-32 程序 二 进 制 代码 比 任何 其 他 指令 集 的 二 进 制 代 码 使 用 得 都 要 广泛 ， 因 此 ， 用 户 希 望 使 用 
虚拟 机 在 某 一 其 他 平台 上 执行 IA-32 程序 二 进 制 代码 ， 例 如 ，Apple 公司 的 Macintosh, CRA 
PowerPC 处 理 器 。 对 于 高 级 语言 虚拟 机 ， 二 进 制 类 (使 用 Java 术语 ) 采 用 了 个 基 于 栈 的 、 字 
节 码 指令 集 ， 它 可 以 在 许多 不 同 的 主机 平台 上 被 仿真 。 

在 指令 集 方面 仿真 允 许 实现 一 种 指令 集 的 机 器 通过 复制 编译 到 另 一 种 指令 集 的 软件 的 行 
为 ， 前 一 种 指令 集 称 为 目标 指令 集 ， 后 一 种 称 为 涛 指令 集 。 这 可 通过 图 2.1 来 阐明 。 注 意 在 指令 
集 仿真 时 我 们 使 用 特定 的 术语 源 和 目标 ， 而 在 谈 到 全 虚拟 机 环境 和 支持 平台 (通常 不 止 包括 
ISAs) 时 ， 使 用 术语 客户 机 和 主机 。 读 者 也 应 该 明白 在 描述 客户 机 和 主机 以 及 源 和 目标 关系 时 ， 
文献 经 常 使 用 不 一 致 的 术语 。 

对 于 许多 虚拟 机 应 用 ， 有 效 地 进行 指令 集 的 仿真 是 十 分 
重要 的 。 仿 真 的 开销 越 低 ， 虚 拟 机 将 越 有 吸引 力 。 本 章 将 侧 
重 在 已 有 硬件 实现 的 传统 指令 集 的 仿真 ， 而 不 是 那些 专门 为 
虚拟 机 实现 而 设计 的 指令 集 ， 比 如 Java 字 节 码 指令 集 。 后 
面 的 虚拟 指令 集 可 以 通过 与 传统 指令 集 相似 的 仿真 技术 来 实 
现 ， 但 是 它们 也 具有 其 特殊 性 ， 从 而 可 以 利用 其 他 的 仿真 技 
术 。 在 第 5 章 ， 将 专门 讨论 高 级 语言 虚拟 机 的 指令 集 。 

一 个 完整 的 ISA 由 许多 部 分 组 成 ， 包 括 寄存 器 集 和 存储 BO) 捕 述 仿真 过 程 的 术语 。 仿 真 
器 结构 、 指 令 、 陷 阱 和 中 断 结 构 。 虚 拟 机 的 实现 通常 涉及 允许 一 个 支持 源 指 令 集 的 客户 机 运行 
ISA 仿真 的 各 个 方面 。 但 本 章 我 们 主要 关注 仿真 不 包括 异常 在 执行 目标 指令 集 的 主机 了 台 上 
(EBMER) 在 内 的 用 户 级 指令 的 操作 。 为 了 理解 指令 集 仿真 ， 本 章 中 需要 讨论 下 内 存 寻 址 
结构 、 陷 阱 、 中 断 和 其 他 性 质 的 仿真 。 在 第 3 和 第 4 章 ， 我 们 讨论 进程 虚拟 机 中 的 存储 器 结构 、 
陷阱 和 中 断 的 仿真 。 在 后 面 的 章节 (主要 是 第 7 章 和 第 8 章 ) ， 我 们 将 讨论 系统 指令 的 仿真 以 及 
与 系统 虚拟 机 相关 的 其 他 ISA 问题 。 

在 某 种 程度 上 ， 指 令 仿真 技术 可 以 被 应 用 于 本 书 所 讨论 的 每 种 类 型 的 虚拟 机 。 虽 然 我 们 主 
要 对 源 指令 集 和 目标 指令 集 不 同 的 情形 感 兴趣 ， 但 是 仍 有 许多 指令 集 相同 的 虚拟 机 应 用 。 在 这 
些 情况 下 ， 严 格 地 说 ， 可 以 不 进行 仿真 ， 但 是 出 于 其 他 目的 而 使 用 了 这 种 技术 。 一 种 应 用 就 是 相 
ALISA 的 动态 二 进 制 优化 ， 其 中 程序 二 进 制 代码 在 运行 时 被 优化 ， 其 运行 平台 与 原先 编译 时 的 
一 样 。 另 一 个 例子 是 系统 虚拟 机 ， 它 通过 VMM 来 控制 和 管理 某 些 客户 机 操作 系统 的 特权 指令 的 
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执行 ， 为 了 达到 这 一 目的 , 采取 了 与 仿真 类 似 的 技术 。 

指令 集 仿真 可 以 使 用 多 种 方法 来 实现 ， 这 需要 不 同 数量 的 计算 资源 ， 并 且 提 供 不 同 的 性 能 
和 可 移植 特性 。 其 中 的 一 个 极端 就 是 直接 的 解释 技术 ， 而 另 一 个 极端 就 是 二 进 制 翻译 。 解 释 包 括 
取 一 条 源 指令 ， 对 其 进行 分 析 ， 执 行 需要 的 操作 ， 再 取 下 一 条 源 指令 这 样 一 个 循环 的 过 程 ， 所 有 
工作 都 是 由 软件 完成 的 。 另 一 方面 ,二进制 翻译 试图 分 摊 取 指 和 分 析 的 代价 ， 它 将 源 指 令 块 翻 译 
为 目标 指令 块 ， 并 且 将 翻译 后 的 代码 保存 起 来 以 便 反 复 使 用 。 与 解释 相对 比 ， 二 进 制 翻译 有 较 大 
的 初始 翻译 代价 ， 但 是 执行 代价 较 小 。 两 者 之 间 选 择 哪 一 个 取决 于 客户 机 软件 期 望 执 行 源 代码 
块 的 时 间 。 可 以 预见 ， 在 这 两 个 极端 之 间 仍 有 其 他 的 技术 。 例 如 ， 线 索 化 解释 消除 了 与 前 面 提 到 
的 循环 相对 应 的 解释 器 循环 ， 并 且 可 以 通过 将 源 指令 预 译 码 为 更 加 高 效 的 可 解释 的 中 间 形 式 来 
进一步 提高 效率 。 


2. 1 基本 的 解释 


解释 器 有 着 悠久 而 丰富 的 历史 。 一 些 程序 语言 ， 如 函数 式 语 言 LISP， 依 赖 于 解释 实现 。Perl 
是 一 个 被 广泛 使 用 的 语言 ， 它 一 般 通过 解释 来 实现 。FORTH 语言 的 “线索 化 代码 ”解释 模型 可 
能 比 其 他 特性 更 加 出 名。 这 里 推荐 Debaere 和 Van Campenhout (1990) 编写 的 参考 。 不 过 ， 本 章 
我 们 更 感 兴趣 的 是 将 解释 技术 应 用 于 程序 的 二 进 制 代码 (机 器 码 ) ， 而 不 是 高 级 语言 。 

狭义 上 ， 一 个 解释 器 程序 在 一 台 实 现 源 ISA 的 机 器 的 完整 结构 状态 上 仿真 运行 ， 这 些 状态 
包括 所 有 的 结构 寄存 器 和 主 存 (图 2-22)。 客 户 机 内 存 的 映像， 包括 程序 代码 和 程序 数据 ， 被 保 
存在 由 解释 器 维护 的 内 存 区 中 。 解 释 器 的 内 存 中 还 保存 着 一 张 称 之 为 上 下 文 块 (context block) 
的 表 ， 它 包含 了 源 结构 状态 的 不 同 部 件 ， 比 如 通用 寄存 器 、 程 序 计数 器 、 条 件 码 和 各 种 各 样 的 控 
制 寄 存 器 。 

源 内 存 状态 BEF 


代码 





数据 


\ 


图 2-2 解释 器 概览 。 一 个 解释 器 管理 实现 源 ISA 机 器 的 全 部 结构 状态 

一 个 简单 的 解释 器 是 通过 逐条 指令 地 执行 源 程序 来 运行 的 ， 它 根据 指令 读 取 并 修改 源 状 态 。 
这 样 的 解释 器 常 被 称 为 译 码 分 派 (decode-and-dispatch) 解释 器 ， 因 为 它 是 围绕 一 个 主 循环 来 组 
织 的 ， 即 译 码 一 条 指令 ， 然 后 将 其 分 派 给 基于 指令 类 型 的 解释 例 程 。 图 2-3 以 PowerPC 源 ISA 为 
例 说 明了 这 种 解释 器 的 结构 。 

解释 器 的 主 循环 显示 图 2-3 的 顶部 描述 ， 而 用 来 解释 取 字 并 置 零 (load word and zero) 指令 
以 及 算术 逻辑 部 件 (ALU) 指令 的 例 程 显示 在 主 循环 下 面 。 取 字 并 置 零 指令 是 将 一 个 32 UTR 
人 到 一 个 64 位 的 寄存 器 中 ， 并 将 寄存 器 的 高 32 HLS; 这 是 一 个 基本 的 PowerPC 取 字 指令 。 注 
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意 ， 在 这 个 例 程 (和 其 他 随后 的 例 程 ) 例子 中 ， 为 简短 起 见 ， 我 们 省 略 了 任何 对 内 存 寻 址 错误 
的 检查 ; 这 些 将 包含 在 大 多 数 虚拟 机 中 。 第 3. 3 节 和 3. 4 节 更 加 完整 地 描述 了 对 内 存 寻 址 结构 的 

仿真 。 算 术 有 逻辑 部 件 指令 实际 是 许多 PowerPC 指令 的 替身 ， 它 们 有 相同 的 基本 操作 码 ， 但 是 由 
不 同 的 扩展 操作 码 来 区 分 。 对 于 这 种 类 型 的 指令 ， 使 用 两 级 译 码 (通过 switch 语句 ) 。 这 里 ， 译 
码 分 派 循 环 是 用 高 级 语言 来 描述 的 ， 但 是 很 容易 学 会 怎样 用 汇编 语言 来 编写 同 祥 的 例 程 ， 以 便 
获得 更 高 的 性 能 。 


while C!halt && !interrupt) { 
inst = code[PC]; 
opcode = extract(inst, 31,6); 
switch(opcode) { 
case LoadWordAndZero: LoadWordAndZero(Cinst); 
case ALU: ALUCinst); 
case Branch: Branch(inst); 


} 


Instruction function list 


LoadwordAndZeroCinst) { 
RT = extractCinst,25,5); 
RA = extractCinst, 20,5); 
displacement = extractCinst,15,16); 
if (RA == 0) source = 0; 
else source = regs[RA]; 
address = source + displacement; 
regs[RT] = (data[address]<< 32) >> 32; 
PC = PC + 4; 


} 


ALUCinst) f 

RT = extractCinst,25,5); 

RA = extractCinst,20,5); 

RB = extractCinst,15,5); 

sourcel = regs[RA]; 

source? = regs[RB]; 

extended_opcode = extract(inst,10,10); 

switch(extended_opcode) { 
case Add: AddCinst); 
case AddCarrying: AddCarryingCinst); 
case AddExtended: AddExtended(inst); 


oa wt 
PC = PC + 4; 





图 2-3 解释 PowerPC 指令 集体 系 结构 的 代码 。 一 个 译 码 分 派 循环 使 用 一 个 switch 语句 来 调用 许多 仿真 
单个 指令 的 例 程 。extract (inst, i, j) 函数 从 inst 中 提取 出 始 于 第 i 位 的 长 为 j 的 一 个 比特 域 


在 图 2-3 中 ， 结 构 化 的 源 程 序 计数 器 被 保存 在 一 个 称 为 PC 的 变量 中 。 这 个 变量 用 来 索引 保 

存 源 二 进 制 代码 映像 的 数组 。 通 过 索引 寻 址 得 到 的 字 是 需要 解释 的 源 程 序 指令 。 指 令 的 操作 和 码 
域 用 从 第 31 位 ?开始 的 6 比特 域 来 表示 ， 它 通过 包含 在 extract 函数 中 的 移 位 和 掩 码 操作 来 提取 。 操 作 

码 域 在 switch 语句 中 使 用 ， 以 确定 解释 特定 指令 的 例 程 。 指 令 中 的 寄存 器 指示 域 和 立即 数 同样 通过 ex- 

tract 函数 来 译 码 。 寄 存 器 指示 域 用 作对 上 下 文 块 的 索引 ， 以 确定 实际 源 操作 数 的 值 。 接 着 ， 解 释 器 例 





© PowerPC 实际 上 将 最 重要 的 位 (mb) 编号 为 0; 我们 习惯 上 把 msb 看 作 31, 
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程 仿真 由 源 指令 指定 操作 。 除 非 指令 本 身 修改 了 程序 计数 器 ， 如 指令 在 分 支 中 ， 否 则 在 例 程 返回 解释 
器 的 译 码 -分派 循 环 之 前 ， 程 序 计数 器 必须 被 显 式 地 增加 以 指向 下 一 条 顺序 指令 。 

图 2-3 中 的 例子 说 明 ， 当 解释 过 程 相当 简单 时 ， 解 释 的 性 能 代价 会 相当 高 。 即 使 解释 器 代码 
直接 用 汇编 语言 来 编写 ， 解 释 一 条 像 取 字 并 置 零 这 样 的 单一 指令 仍然 需要 包含 目标 ISA PRT 
条 指令 的 执行 。 


2.2 线索 解释 


译 码 -分 派 解释 器 虽然 易于 编写 和 理解 ， 但 是 执行 时 会 很 慢 。 在 本 节 和 后 续 节 中 ， 我 们 将 介 
绍 一 些 用 来 降低 和 消除 这 种 无 效 性 的 技术 。 我 们 首先 看 线索 解释 (Klint 1981). 

译 码 - 分 派 解释 器 的 主 分 派 循环 包含 许多 直接 和 间接 的 分 支 指令 。 这 些 分 支 依靠 硬件 实现 ， 
它们 往往 会 降低 性 能 ， 特 别 是 在 它们 难以 被 预测 (Ertl 和 Gregg 2001, 2003) 的 时 候 。 除 了 在 循 
环 顶 部 测试 暂停 或 中 断 之 外 ， 还 有 针对 switch 语句 的 寄存 器 间接 分 支 ， 到 解释 器 例 程 的 分 支 ， 从 
解释 器 例 程 返回 的 二 级 寄存 器 间接 分 支 ， 以 及 最 后 的 结束 循环 的 分 支 。 如 图 2-4 所 示 ， 通 过 在 每 
条 指令 的 解释 例 程 的 末端 追加 一 部 分 分 派 代码 ， 可 以 删除 刚才 列 出 的 三 个 分 支 。 剩 余 的 一 个 分 
支 就 是 寄存 器 间接 分 支 ， 它 取代 了 在 主 分 派 循 环 中 的 switch 语句 分 支 。 即 为 了 解释 下 一 条 指令 有 
必要 取 下 一 条 指令 的 操作 码 ， 利 用 分 派 表 来 查找 相应 解释 器 例 程 的 地 址 ， 并 跳 转 到 这 个 例 程 。 


Instruction function list 


LoadWordAndZero: 
RT = extract(Cinst,25,5); 
RA = extractCinst,20,5); 
displacement = extract(inst,15,16); 
if (RA == 0) source = 0; 
else source = regs[RA]; 
address = source + displacement; 
regs[RT] = (data(address)<< 32) >> 32; 
PC = PC + 4; 
If (halt || interrupt) goto exit; 
inst = code[PC]; 
opcode = extract(Cinst, 31,6); 
extended_opcode = extract(Cinst,10,10); 
routine = dispatch[opcode, extended_opcode] ; 
goto *routine; 


RT = extractCinst,25,5); 

RA = extract(inst,20,5); 

RB = extractCinst,15,5); 

sourcel = regs[RA] ; 

source2 = regs[RB]; 

sum = sourcel + source2; 

regs[RT] = sym; 

PC = PC + 4; 

If Chalt || interrupt) goto exit; 

inst = code(PC]; 

opcode = extractCinst, 31,6); 
extended_opcode = extract(inst,10,10); 
routine = dispatch[opcode,extended_opcode] ; 
goto “routine; 


图 2-4 PowerPC 代码 的 两 个 线索 解释 器 例 程 。 使 用 线索 解释 ， 就 不 再 需要 主 分 派 循环 了 


图 2-5 说 明了 译 码 - 分 派 方法 和 刚刚 描述 的 线索 解释 器 技术 在 数据 和 控制 流 方面 的 区 别 。 图 
2-5a 显示 的 是 在 源 ISA 上 的 本 地 执行 ， 图 25b 所 示 为 译 码 - 分 派 方法 ， 图 2-5c 则 描述 了 线索 解 
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释 。 从 图 2-5b 中 很 容易 看 到 分 派 循环 的 集中 特性 。 控 制 流 不 断 地 退出 和 返回 主 分 派 循环 。 另 一 
方面 ， 使 用 线索 解释 (图 2-5c)， 分 派 循 环 对 下 一 条 指令 的 取 指 和 译 码 动作 都 被 复制 到 每 一 个 解 
释 器 例 程 中 。 解 释 器 例 程 不 是 通常 意义 中 的 子 例 程 ; 它们 是 通过 线索 连接 起 来 的 简单 代码 块 。 


解释 器 


源 代码 源 代码 srame mite MAN 
| | 、 yi 1 | | | 
| | | ARER Ly ae ka | 
f 1 f | eed 
| | | | 
| We A 

| | | a ii bee) \ ”| 
ba | | dr) | 

Ii] bP / | | 

| | | af bp l me Te 

| + | i | | | | 

beg | i | | 

Ly] L Lai L | | 

a) 本 地 执行 b) 译 码 - 分 派 解释 c) 线索 解释 


图 2-5 解释 方式 。 控 制 流 用 带 箭头 的 实 线 表示 ， 而 数据 访问 用 带 箭头 的 虚线 表示 。 解 
释 器 通过 数据 访问 来 读 取 单条 源 指 令 


从 刚才 的 描述 中 可 以 看 出 ， 线 索 解 释 的 一 个 关键 性 质 就 是 分 派 是 通过 一 张 表 间 接 完成 的 。 
这 种 间接 的 优势 之 一 就 是 解释 例 程 可 以 独立 地 修改 和 重 定位 。 由 于 通过 分 派 表 的 跳 转 是 间接 的 ， 
这 种 方式 便 被 称 为 间接 线索 解释 (Dewar 1975) 。 


2.3 预 译 码 和 直接 线索 解释 


尽管 间接 线索 解释 器 消除 了 集中 分 派 循 环 , 但 是 集中 分 派 表 还 是 会 带 来 开销 。 在 这 个 表 中 
查找 一 个 解释 器 例 程 仍然 需要 有 内 存 访问 和 寄存 器 间接 分 支 指令 。 为 了 获得 更 高 的 效率 ， 消 除 
对 集中 表 的 访问 是 值得 的 。 

进一步 的 观察 发 现 ， 每 次 遇 到 一 条 指令 ， 都 会 调用 一 个 解释 器 例 程 。 这 样 当 同 一 源 指 令 被 解释 
多 次 时 ， 对 于 这 条 指令 的 每 个 动态 实例 ， 检 查 指令 和 提取 各 种 域 的 过 程 必须 被 重复 进行 。 如 图 2-3 
所 示 ， 对 于 一 条 取 字 并 置 零 指令 ,提取 指 令 域 需要 多 条 解释 器 指令 。 如 果 这 些 重复 的 操作 仅仅 被 执 
行 一 次 ,将 提取 出 的 信息 以 中 间 形 式 保存 ， 然 后 在 每 次 这 条 指令 被 仿真 时 复 用 ， 这 样 看 来 就 更 高 效 
了 。 这 个 过 程 称 作 预 译 码 (predecoding) ， 将 在 下 面 的 小 节 中 讨论 。 从 中 可 以 看 出 ， 预 译 码 给 以 了 一 种 
更 加 高 效 的 线索 解释 技术 一 一 直接 线索 解释 (direct threaded interpretation) (Bell 1973; Kogge 1982) 。 


2.3.1 基本 的 预 译 码 


预 译 码 涉 及 解析 一 条 指令 并 且 将 它 表 示 成 能 简化 解释 的 形式 。 特 别 地 ， 预 译 码 提取 出 信息 
片段 并 将 它们 放 人 易于 访问 的 域 中 (Magnusson 和 Samuelsson 1994; Larus 1991)。 例 如 在 Power- 
PC ISA 中 ， 所 有 的 基本 ALU 指令 ， 例 如 and、or、add 和 subtract， 都 是 通过 操作 码 位 和 扩展 操 
作 码 位 的 联合 来 指明 。 它 们 都 有 相同 的 基本 操作 码 (31) ， 并 通过 指令 字 的 低 端 离 操作 码 较 远 的 
扩展 操作 码 位 来 区 别 。 预 译 码 可 以 将 这 些 信息 组 合成 一 个 单一 的 操作 码 。 寄 存 器 标识 符 也 可 以 
从 源 二 进 制 代码 中 提取 出 来 并 放 和 人 按 字 节 对 齐 的 域内 ， 以 便 可 以 用 取 字 节 指 令 来 直接 访问 。 

图 2-6 描述 了 对 PowerPC ISA 的 基本 预 译 码 。 图 2-6a 包含 了 一 小 段 PowerPC 代码 序列 。 这 
个 序列 从 内 存 中 载 和 一 个 数据 项 并 加 到 一 个 寄存 器 中 ， 累 积 得 到 一 个 和 。 这 个 和 再 被 存 回 到 内 
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存 中 。 图 2-6b 是 相同 代码 的 预 译 码 中 间 形 式 。 这 种 预 译 码 格式 用 一 个 单字 对 操作 编码 ," 它 通过 
按照 前 面 讨论 的 那样 组 合 操作 码 和 功能 码 而 得 到 。 因 此 ， 这 些 编码 不 需要 与 源 ISA 的 操作 码 相 
同 ， 在 所 给 的 这 个 例子 中 它们 就 是 不 相同 的 。 第 二 个 预 译 码 字 以 稀 朴 的 、 按 字 节 对 齐 的 格式 保存 
各 种 指令 域 。 当 给 定 立 即 数 或 偏 移 量 时 ， 就 可 以 利用 一 个 16 位 的 域 。 总 之 ， 这样 就 得 到 了 一 种 
中 间 指 令 格式 ， 它 不 如 最 初 的 源 指令 密集 ,但 是 更 易于 被 解释 器 访问 。 


1wz rl, 8(r2) ;load word and zero 
add r3, r3, rl :rr3 =r3+ri 
stw r3, OCr4) ‘store word 

a) PowerPC 源 代码 


Cload word and zero) 


Cadd) 


(store word) 
[314[ 00 | 
b) PowerPC 程序 对 应 的 预 译 码 中 间 形 式 


图 2-6 预 译 码 过 的 PowerPC 指令 。 加 法 指令 的 扩展 操作 码 和 操 
作 码 被 合并 为 一 个 单独 的 预 译 码 操作 码 





图 2-7 给 出 了 运行 在 图 2-6 中 预 译 码 的 中 间 代 码 之 上 的 取 字 并 置 零 解释 器 例 程 。 这 里 ， 我 们 
将 指令 预 译 码 为 一 个 指令 再 结构 体 的 数组 ， 这 对 于 本 例 中 的 指令 是 足够 的 ， 但 是 对 于 全 部 的 
PowerPC ISA 来 说 ， 还 应 更 详细 地 描述 。 在 本 例子 中 ， 针 对 预 译 码 中 间 形 式 的 解释 回 例 程 要 比 前 
面 在 图 2-3 中 给 出 的 相应 例 程 略微 简单 ， 并 且 对 PowerPC ISA 的 预 译 码 带 来 的 好 处 显得 相对 小 一 
些 。 然 而 对 于 CISC ISA 来 说 ， 由 于 它们 有 许多 不 同 的 格式 ， 好 处 就 更 多 了 。 另 外 ， 预 译 码 带 来 
了 额外 的 性 能 优化 ， 在 下 一 个 小 节 中 将 描述 直接 线索 化 。 


struct instruction { 
unsigned long op; 
unsigned char dest; 
unsigned char srcl; 
unsigned int src2; 
} code [CODE_SIZE] 


Load Word and Zero: 
RT = code[TPC] .dest; 
RA = code(TPC] .srcl1; 
displacement = code[TPC] .src2; 
if (RA == 0) source = 0; 
else source = regs[RA]; 
address = source + displacement; 
regs[RT] = (data[address]<< 32) >> 32; 
SPC = SPC + 4; 
TPC = TPC + 1; 
If (halt || interrupt) goto exit; 


opcode = code[TPC] .op; 
routine = dispatch[opcode]; 
goto *routine; 


图 2-7 在 预 译 码 后 PowerPC 取 字 并 置 零 指 令 的 线索 解释 器 代码 
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因为 中 间 代 码 独立 于 最 初 的 源 二 进 制 代码 而 存在 ， 为 了 依次 访问 中 间 代 码 添加 了 一 个 独立 
的 目标 程序 计数 器 (TPC). Rit, WISA 的 程序 计数 器 (SPC) 仍 被 维持 着 。SPC 中 保存 了 正 
确 的 源 结 构 状 态 ， 而 实际 上 是 通过 TPC 来 取 预 译 码 过 的 指令 的 。 一 般 地 ， 对 于 长 度 不 定 的 CISC 
指令 ，TPC 和 SPC 的 值 在 任意 给 定时 间 内 可 以 不 只 有 明显 的 关系 ， 因 此 有 必要 对 二 者 都 进行 维 
护 。 可 是 对 于 长 度 固定 的 RISC 指令 ， 这 种 关系 可 以 相对 容易 地 计算 出 来 ， 所 提供 的 中 间 形 式 也 
是 固定 长 度 的 。 


2.3.2 直接 线索 解释 


尽管 间接 线索 解释 具有 易于 移植 的 优点 .但 是 由 分 派 表 引起 的 间接 性 同样 有 性 能 代价 ;只 
要 访问 这 个 表 就 需要 一 次 内 存 查找 。 为 了 去 除 分 派 表 查找 引起 的 间接 层 ， 包 含 在 中 间 代 码 中 的 
指令 代码 可 以 用 解释 器 例 程 的 实际 地 址 来 代替 (Bell 1973)。 这 在 图 2-8 中 作 了 说 明 。 
001048d0 《load word and zero) 


00104800 (add) 


00104910 (store word) 
[3 [4] 00 | 


图 2-8 直接 线索 解释 的 中 间 形 式 。 中 间 形 式 中 的 操作 码 用 解释 器 例 程 的 地 址 替代 


图 2-9 给 出 了 直接 线索 化 的 解释 器 代码 。 除 了 去 掉 分 派 表 查找 之 外 ， 这 段 代码 与 间接 线索 代 
码 非常 类 似 。 解 释 器 例 程 的 地 址 从 中 间 代 码 中 的 一 个 域 加 载 进 来 ， 利 用 一 个 寄存 器 间接 跳 转 直 
接 转 到 该 例 程 中 。 尽 管 速度 快 了 ， 但 是 这 使 得 中 间 形 式 变 得 依赖 于 解释 器 例 程 的 精确 位 置 ， 从 而 
限制 了 可 移植 性 。 如 果 解 释 器 代码 被 移植 到 一 个 不 同 的 目标 机 器 上 ， 就 必须 为 执行 它 的 目标 机 
器 重新 生成 。 然 而 一 些 编程 技术 和 编译 器 特性 可 以 在 某 种 程度 上 减轻 这 一 问题 。 例 如 ，gcc 编译 
器 有 一 个 一 元 操作 符 〈&&) ， 它 可 以 取 一 个 标号 的 地 址 。 这 个 操作 符 可 以 用 来 生成 可 移植 的 直接 
线索 代码 ， 即 找 出 每 个 解释 器 例 程 开 始 位 置 的 标号 的 地 址 ， 然 后 将 它们 放 在 预 译 码 后 的 指令 中 。 通 
过 将 绝对 例 程 地 址 替换 为 相对 例 程 地 址 (相对 于 某 个 例 程 的 基地 址 ) ， 还 可 以 使 解释 器 重 定位 。 


Load Word and Zero: 
RT = code[{TPC] .dest; 
RA = code[TPC] .srcl; 
displacement = code[TPC].src2; 
if (RA == 0) source = 0; 


else source = regs[RA]; 
address = source + displacement; 
regs[RT] = (data[address]<< 32) >> 32; 
SPC = SPC + 4; 

TPC = TPC + 1; 

If (halt || interrupt) goto exit; 
routine = code[TPC] .op; 
goto *routine; 


图 2-9 直接 线索 化 解释 器 代码 





2.4 解释 一 个 复杂 的 指令 集 

迄今 为 止 ， 在 描述 基本 的 解释 技术 时 ,集中 讨论 相当 简单 的 指令 集 是 有 益 的 。 我 们 的 例子 中 
使 用 了 一 个 RISC ISA 一 PowerPC。 类 似 地 ,我们 将 在 第 5 章 中 讨论 虚拟 指令 集 ， 例 如 Pascal 
P-Code 和 Java 字 节 码 ， 它 们 是 为 仿真 而 专门 设计 的 ， 可 以 一 种 简单 直接 的 方式 用 上 面 描述 的 技 
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术 来 解释 。 然 而 在 实际 中 ， 最 通常 被 仿真 的 指令 集 之 一 不 是 RISC 或 者 简单 的 虚拟 ISA; 而 是 一 
个 CISC 一 一 Intel IA-32。CISC ISA 会 给 解释 带 来 额外 的 问题 (和 复杂 性 ) ， 在 这 一 节 里 我 们 将 以 
IA-32 为 例 来 说 明 这 一 点 。 

PowerPC 这 种 现代 RISC ISA 的 特点 之 一 是 规则 的 指令 格式 。 即 所 有 的 指令 有 相同 的 长 度 ， 
典型 的 为 32 位， 指令 格式 也 相当 有 规则 ， 例 如 ， 寄存器 标识 符 通常 出 现在 指令 格式 中 相同 的 比 
特 位 置 。 正 是 这 种 规则 性 使 解释 的 许多 步骤 变 得 简单 了 。 例 如 ， 解 释 器 可 以 提取 出 操作 码 RE 
立即 分 派 给 所 指示 的 指令 的 解释 器 例 程 。 类 似 地 ， 每 个 指令 解释 例 程 可 以 提取 出 操作 数 并 简单 
地 完成 整个 仿真 过 程 。 

另 一 方面 ， 许 多 CISC 指令 集 有 多 种 格式 ， 可 变 的 指令 长 度 ， 甚 至 可 变 的 域 长 度 。 在 某 些 
ISA 中 ， 指 令 格式 的 可 变性 意味 着 增加 代码 密度 和 指令 集 的 “ 正 交 性 ”。VAX ISA 就 是 一 个 好 例 
F (Brunner 1991), Æ VAX 中 ， 每 个 操作 数 可 以 通过 任何 一 种 寻 址 方式 来 指明 。 在 其 他 ISA 
中 ， 这 种 可 变性 反映 了 指令 集 随 时 间 的 变化 ， 增 加 了 许多 扩展 和 新 的 特征 ， 同 时 维持 与 老 版 本 的 
兼容 性 。IA-32 是 这 一 发 展 过 程 的 好 范例 。IA-32 起 初 作为 16 位 微 控 制 器 芯片 的 指令 集 ， 它 具有 
物理 寻 址 和 密集 的 指令 编码 并 最 终 发 展 成 一 个 支持 虚拟 内 存 的 高 性 能 、32 位 通用 处 理 器 。 这 个 
发 展 过程 还 在 继续 ， 并 且 最 近 它 已 被 进一步 扩展 到 了 64 位 。 


2.4.1 1A-32 ISA 的 解释 


图 2-10 显示 了 IA-32 指令 的 一 般 形式 。 它 以 0 ~4 SABA (prefixbytes) 开头 ， 指 明 是 否 
有 字符 串 指 令 的 重复 和 /或 者 是 否 有 对 寻 址 段 、 地 址 大 小 和 操作 数 大 小 的 改写 。 在 前 缀 字 节 〈 如 
RA) 之 后 就 是 操作 码 字 节 ， 它 的 后 面 还 可 能 有 第 二 个 操作 码 字 节 ， 这 取决 于 第 一 个 的 值 。 接 
下 来 的 是 可 选 的 寻 址 方式 标识 符 ModRAM， 该 标识 符 是 可 选 的 ， 意 味 着 它 只 针对 菜 些 操作 码 而 
存在 ,通常 指示 一 种 寻 址 方式 和 寄存 器 。SIB 字 节 只 针对 某 种 ModR/M 编码 而 存在 ， 它 指示 一 
个 基 址 寄存 器 、 一 个 索引 寄存 器 和 一 个 用 于 索引 的 比例 因子 。 可 选 的 、 偏 移 量 (displacement) 
是 针对 某 些 内 存 寻 址 方式 而 存在 的 。 如 果 操 作 码 需要 ， 最 后 一 个 域 是 一 个 变 长 的 立即 数 。 





0 到 4 可 选 的 可 选 的 可 选 的 ”0, 1 2, 4 字 和 节 0 1 2 4 字 他 
Æ 2-10 1A-32 指令 的 一 般 格 式 


由 于 全 部 的 变化 以 及 某 些 域 的 存在 与 否 依赖 于 其 他 域 中 的 值 ， 所 以 在 解释 CISC ISA, ZA 
是 IA-32 ISA 时 ， 一 种 简单 的 方法 就 是 将 指令 的 解释 分 成 两 个 主要 阶段 ， 如 图 2-11 所 示 。 第 一 个 
阶段 扫描 并 译 码 不 同 的 指令 域 。 这 样 做 以 后 ， 就 填充 到 一 个 通用 指令 模板 的 域 中 。 这 个 模板 实质 
上 包含 了 可 能 的 指令 选项 的 超 集 。 接 着 ， 在 分 派 阶段 会 跳 转 到 根据 指令 类 型 所 确定 的 例 程 中 。 这 
些 例 程 仿真 特定 的 指令 ， 根 据 需要 从 相关 的 指令 模板 域 中 读 取 数 值 。 

图 2-12 是 一 个 占 三 页 篇 幅 的 图 ， 它 是 用 伪 C 代码 编写 的 一 个 解释 器 ， 是 根据 在 Bochs 免费 
软件 IA-32 解释 器 (Lawton) 中 使 用 的 方法 来 设计 的 。 这 里 并 没有 给 出 在 该 例 中 使 用 的 所 有 的 程 
序 , 但 是 在 代码 没有 出 现 的 地 方 ， 给 出 了 概括 它们 功能 的 、 便 于 记忆 的 名 字 。 解 释 被 集中 在 一 个 
指令 模板 上 ， 这 个 指令 模板 是 结构 体 IA-32instr， 它 定义 在 图 2-12a 的 顶部 。 主 要 的 CPU 解释 器 
循环 则 在 图 2-12b 的 底部 。 这 个 循环 通过 填写 指令 模板 开始 对 一 条 指令 的 解释 。 指 令 模板 中 包括 
一 个 到 指令 解释 器 例 程 的 指针 。 在 模板 建立 以 后 ，CPU 循环 使 用 这 个 指针 跳 转 到 所 指示 的 例 程 。 
某 些 指令 可 能 被 重复 (根据 前 缀 字 节 ) ， 这 是 由 “need_to_repeat” 测 试 来 确定 的 。 

IA-32instr 结构 体 包括 操作 码 〈 至 多 两 个 字 节 ) 、 一 个 收集 前 缀 的 掩 码 (最 多 可 能 有 12 个 前 
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级 )， 一 个 包含 指令 长 度 和 指向 指令 解释 例 程 的 指针 的 值 。 接 着 ,还 有 许多 用 来 收集 操作 数 信息 
的 子 结构 。 如 果 和 结构 体 作为 一 个 整体 来 看 ， 这 里 定义 了 一 个 包括 所 有 指令 的 操作 数 信息 的 一 
个 超 集 。 这 个 结构 体 总 共 的 大 小 接近 于 6 个 字 。 








通用 译 码 
(填写 指令 结构 ) 


指令 1 指令 2 #4 a 
专用 的 例 程 专用 的 例 程 专用 的 例 程 


图 2-11 基本 的 CISC ISA 解释 器 的 程序 流程 





struct IA-32instr { 
unsigned short opcode; 
unsigned short prefixmask; 
char ilen; // instruction length. 


InterpreterFunctionPointer execute; // semantic routine for this instr. 


struct { 
// general address computation: [Rbase + (Rindex << shmt) + displacement] 
char mode; // operand addressing mode, including register operand. 
char Rbase; // base address register 
char Rindex; // index register 
char shmt; // index scale factor 
long displacement; 

} operandRM: 


struct { 
char mode; // either register or immediate. 
char regname; // register number 
long immediate;// immediate value 
} operandRI; 
} instr: 


// 
// BIG fetch_decode table indexed by the opcode 


IA-320pcodeInfo_t IA-32_fetch_decode_table[] = 


{ DecodeAction, InterpreterFunctionPointer}, 
{ DecodeAction, InterpreterFunctionPointer}, 
{ DecodeAction, InterpreterFunctionPointer}, 





图 2-12a) 1A-32 解释 器 的 主要 数据 结构 。 指 令 模块 和 译 码 表 
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图 2-12b 的 顶部 给 出 了 填写 模板 结构 体 的 代码 。 这 个 代码 从 左 至 右 扫 描 一 条 指令 ， 首 先 查 找 前 
缀 字 节 并 填写 前 缀 掩 码 。 然 后 确定 操作 码 是 一 个 还 是 两 个 字 节 ， 并 使 用 操作 码 来 查找 一 张 表 ， 得 到 
一 个 译 码 动作 和 一 个 指向 最 终 用 来 解释 这 条 指令 的 例 程 的 指针 。 这 个 查找 表 是 解释 中 使 用 的 第 二 个 
重要 数据 结构 ， 在 图 2-12a 的 底部 进行 了 说 明 。 查 找 表 将 返回 一 个 二 元 组 < DecodeAction, Interpret- 
erFunctionPointer > 。DecodeAction 包括 寻 址 方式 信息 ， 是 否 存在 立即 数 等 等 ， 而 mmstructionFunc- 
tionPointer 是 一 个 指向 特定 解释 器 例 程 的 指针 。 最 后 ， 对 操作 数 标识 符 译 码 并 填 人 位 移 量 和 立即 数 。 


IA-32instr 
IA-32_FetchDecode (PC) { 
fetch_ptr = PC; 


// 1. parse prefixes 

byte = code[++fetch_ptr]; 

while Cis_IA-32_prefix(byte)) { 
add_prefix_attribute(byte, instr); 
byte = code[++fetch_ptr]; 

} 


// 2. parse opcode 
instr.opcode = byte; // its code{fetch_ptr]; 
if Cinstr.opcode == 0x0f){ 
instr.opcode = 0x100 | code[++fetch_ptr]; // 2 Byte opcode. 


// 3. Table Look up based on opcode to find action and function pointer. 
decode_action = IA-32_fetch_decode_table[instr.opcode] .DecodeAction; 
instr.execute = 
IA- 
32_fetch..decode_table[instr.opcode].InterpreterFunctionPointer; 
// Semantic routines for IA-32 instrs, e.g., ADD_RX_32b(IA-32instr i); 


// 4. Operand Resolution -- setup the operandRI and operandRM fields above. 
if (need_Mod_RM(decode_action)) { 

parse_Mod_RM_byteCinstr) ; 

if (need_SIB_byte(Cinstr->operandRM.mode)) fetch_SIB_byte(Cinstr); 

if (need_displacement(instr->operandRM.mode)) fetch_displacement (instr) ; 


if (need_immediate(decode_action)) fetch_immediateCinstr); 


// 5. bookkeeping and return. 
instr.ilen = bytes_fetched_for_this_instr; 
return instr; 


} 
void cpu_loop() 
{ 


while (Cihalt) { 
instr = IA-32_FetchDecode(PC); 
if CLIA-32_string_instruction) { 
instr.execute(); 


else { 
whi le(need_to_repeatCinstr.prefixmask)) 
instr.execute(); 
handle_asyn_event(); // i.e. an interrupt 


} 


PC = PC + instr.ilen; 
handle_asyn_eventQ; 





图 2-12b) 1A-32 解释 器 的 模板 填写 例 程 和 主要 的 仿真 循环 
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图 2-12c 描述 了 指令 函数 列表 ， 其 中 只 有 一 条 (许多 之 一 ) 指令 一 一 32 位 add 指令 给 出 了 详 
细 说 明 。 解 释 器 例 程 在 运行 时 会 使 用 IA-32instr 模板 中 的 信息 。 在 解释 完成 之 后 ，CPU 循环 增加 
程序 计数 器 并 继续 进行 下 一 条 指令 。 


Instruction function fist 


// ADD: register + Reg/Mem --> register 
void 
ADD_RX_32b(IA-32instr instr) // X means: either Reg or Mem{ 
unsigned op1_32, op2_32, sum_32; 
op1_32 = IA-32_GPR[instr..operandRI.regname] ; 
if (mem_operand(instr.operandRM.mode)) { 
unsigned mem_addr = resolve_mem_address(instr); 
op2_32 = virtual_mem(mem_addr] ; 


else { 
op2_32 = IA-32_GPR[instr.operandRM. Rbase] ; 
} 


sum_32 = op1_32 + op2_32; 


IA-32_GPREinstr.operandRI.regname] = sum_32; 
SET_IA-32_CC_FLAGS (op1_32, op2_32, sum_32, IA-32_INSTR_ADD32); 


} 


void 
ADD_XR_32b(IA-32instr instr) 
{ 


} 


void 
ADD_RI.32b(IA-32instr instr) 
{ 





图 2-12c JIA-32 译 码 -分 派 解释 器 的 指令 解释 例 程 


刚刚 描述 的 基本 的 译 码 - 分派 解释 器 结构 良好 并 易于 理解 ,但 是 它 会 相当 地 慢 。 慢 的 一 个 
41) 原因 就 是 它 的 一 般 性 。 即 在 进入 一 条 指令 的 解释 例 程 之 前 ， 它 首先 对 全 部 指令 做 连续 的 译 码 ， 
43| 覆盖 所 有 可 能 的 情况 。 一 个 更 高 效 的 解释 器 可 以 围绕 “加 快 通常 情况 ”的 原则 来 构造 。 对 于 
IA-32 ISA， 通 常情 况 包 括 : (1) 没有 前 缀 字 节 ，(2) 单字 节操 作 码 ，(3) 简单 的 操作 数 标 识 
符 ， 经 常 只 是 寄存 器 。 基 于 这 些 观察 ， 可 以 沿 着 图 2-13 中 画 出 的 线 来 构造 一 个 解释 器 。 这 个 
解释 器 首先 根据 第 一 个 指令 字 节 分 派 到 一 个 例 程 (有 时 也 可 以 使 用 两 个 字 节 ， 只 是 分 派 表 要 
大 得 多 ) 。 接 着 ， 通 过 对 指令 的 其 余 字 节 进 行 译 码 的 专门 例 程 ， 这 些 简单 的 、 通 常 的 指令 被 立 
即 解释 执行 。 对 于 不 太 通 常 的 情况 ， 还 有 更 加 复杂 的 解释 例 程 ， 它 们 可 以 针对 更 多 的 相关 操 
作 共 享 一 些 例 程 。 如 果 第 一 个 字 节 正好 是 一 个 前 级， 那么 它 的 值 可 以 被 记录 下 来 ， 并 将 控制 
返回 到 分 派 代 码 。 在 这 种 实现 之 下 ， 简 单 的 1A-32 指令 序列 将 被 仿真 得 相对 快 一 些 ， 非 常 像 一 

个 等 价 的 RISC 指令 序列 。 
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图 2-13 基于 普通 情况 优化 的 解释 器 


2. 4.2 线索 解释 


回忆 在 线索 解释 中 ， 译 码 - 分派 代 码 被 追加 到 每 个 指令 解释 例 程 的 末尾 。 对 于 RISC， 正 如 

我 们 之 前 看 到 的 那样 ， 代 码 量 相对 较 小 从 而 导致 移 除了 一 些 分 支 指令 。 然 而 ， 如 果 把 图 2-12b 中 
描述 的 那些 对 IA-32 ISA 译 码 的 复杂 例 程 追 加 到 每 条 指令 的 解释 例 程 后 面 ， 解 释 器 将 变 得 非常 庞 
大 ， 任 何 性 能 上 的 改进 也 就 相对 小 了 。 因 此 ， 为 了 实现 一 个 CISC ISA 的 线索 解释 器 ， 应 该 给 每 
个 指令 解释 例 程 追加 一 个 简单 的 、 对 通常 情况 作 了 优化 的 译 码 - 分 派 例 程 ， 而 对 复杂 情况 则 使 
用 一 个 集中 的 译 码 - 分 派 例 程 。 在 图 2-14 中 ， 简 单 指令 从 一 个 线索 化 到 下 一 个 , 但 是 当 遇 到 一 
个 复杂 指令 时 ， 将 执行 一 个 集中 的 译 码 例 程 ， 接 着 分 派 到 一 个 指令 解释 例 程 。 这 实质 上 是 译 码 - 
分 派 和 线索 方法 的 结合 。 





复杂 指令 
专用 的 例 程 


简单 的 
译 码 / 分 派 






图 2-14 CISC ISA 的 线索 解释 器 
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如 果 对 CISC ISA 使 用 预 译 码 和 直接 线索 解释 ， 将 面临 两 个 重要 问题 。 第 一 个 是 普通 的 定 长 
预 译 码 指 令 格 式 可 能 与 在 译 码 - 分 派 解 释 器 中 使 用 的 IA-32instr 指令 模板 看 起 来 非常 得 相似 。 这 
将 导致 预 译 码 程序 非常 大 。 在 这 种 情况 下 ， 每 条 指令 大 约 消 耗 6 个 字 节 。 一 种 选择 就 是 使 用 少数 
针对 专门 指令 类 型 的 中 间 预 译 码 形式 。 或 者 可 以 将 一 个 单独 的 CISC 指令 预 译 码 成 多 个 简单 的 预 
译 码 指令 形式 。 这 非常 类 似 于 二 进 制 翻译 为 一 个 RISC ISA 《二 进 制 翻译 将 在 下 一 节 中 介绍 ) 。 

第 二 个 重要 问题 是 需要 执行 代码 发 现 (code discovery ) ， 这 是 随 着 对 大 多 数 CISC ISA 预 译 
码 而 出 现 的 。 通 常 ， 预 译 码 步 又 是 在 指令 被 解释 之 前 ， 在 程序 的 二 进 制 代码 上 操作 的 。 不 过 对 于 
变 长 指令 ， 扫 描 二 进 制 代码 并 正确 地 标识 所 有 指令 的 边界 ， 或 者 在 某 些 情况 下 从 指令 中 分 离 出 
数据 往往 是 不 可 行 的 〈 或 者 只 是 可 能 的 ) 。 代 码 发 现 问题 在 二 进 制 翻译 中 也 会 出 现 ， 这 将 在 2.6 
节 中 详细 描述 。 由 于 代码 发 现 问题 ， 对 传统 的 CISC ISA 的 预 译 码 变 成 一 个 迭代 的 、 两 阶段 的 过 
程 ， 首 先 通过 简单 的 译 码 - 分 派 解释 来 发 现 指 令 ， 接 着 预 译 码 成 中 间 形 式 并 进行 直接 线索 解释 。 
总 之 ， 这 非常 类 似 于 结合 了 二 进 制 翻译 的 分 阶段 仿真 方法 ， 这 将 在 本 章 的 后 面 进行 讨论 。 

根据 前 面 所 述 ， 可 以 总 结 如 下 : CISC ISA 的 预 译 码 与 二 进 制 翻译 如 此 相似 ， 以 至 于 应 该 只 
要 简单 地 执行 二 进 制 翻译 。 可 是 与 二 进 制 翻译 相反 ， 预 译 码 有 一 个 主要 的 优点 : 更 好 的 可 移植 
人 性。 对 于 二 进 制 翻译 ， 必 须 针 对 每 个 目标 JISA 有 一 个 专门 的 代码 生成 器 ， 尽 管 已 经 研制 出 可 重 定 
向 的 二 进 制 翻译 器 (Cifuentes, Lewis 和 Ung 2002; Scott 等 人 ，2003 ) 。 对 于 预 译 码 ， 中 间 形 式 
很 大 程度 上 还 是 与 平台 无 关 的 ， 并 且 解 释 器 例 程 可 以 用 可 移植 的 高 级 语言 来 编写 。 因 此 ， 通 过 将 
简单 的 像 RISC 一 样 的 中 间 形 式 与 快速 的 直接 线索 解释 器 例 程 结合 起 来 ， 再 加 上 分 阶段 的 解释 策 
略 ， 就 可 以 达到 一 个 高 性 能 而 且 可 移植 的 CISC ISA 解释 器 。 


2.4.3 一 个 高 性 能 IA-32 解释 器 


在 这 一 节 中 ， 我 们 通过 一 个 例子 来 讨论 CISC 解释 ， 这 个 例子 描述 了 为 速度 而 做 优化 的 IA- 
32 译 码 - 分派 解释 器 的 一 些 特征 。 这 个 例子 大 体 上 以 一 个 IA-32 解释 器 的 描述 为 基础 ， 它 是 
DEC/Compaq FX!32 系统 (Chernoff 等 人 ，1998; Hookway 和 Herdeg 1997) 的 一 部 分 。 在 
FX!32 系统 中 ，32 位 的 IA-32 体系 结构 被 仿真 在 64 位 的 Alpha 平台 上 。 这 个 特殊 的 解释 器 是 用 
汇编 语言 编写 的 ， 这 使 得 它 不 可 移植 但 却 是 高 度 优化 的 代码 。 这 个 例子 使 用 了 类 似 于 为 FX132 
描述 的 汇编 代码 ; 不 过 它 是 用 64 位 的 PowerPC 代码 而 不 是 Alpha 代码 来 编写 的 。 解 释 器 使 用 了 
专门 针对 通常 情况 的 译 码 - 分 派 风格 。 

主 循环 使 用 了 软件 流水 (software pipelining) (Lam 1988) 技术 ， 这 使 得 同一 内 层 循环 中 的 
程序 解释 的 不 同 阶段 可 以 重病 进行 ， 从 而 缩减 了 执行 时 间 。 下 面 是 分 派 循环 中 使 用 的 主要 寄存 
器 及 其 用 法 的 简要 说 明 。 

rl Fil r2 保存 了 预 取 的 IA-32 指令 的 字 节 流 ; 一 个 最 少 8 个 字 节 的 预 取 指令 被 保存 起 来 。 

3 保存 指令 缓冲 区 的 长 度 ; 这 个 寄存 器 并 不 是 在 主 分 派 循 环 中 使 用 的 ， 而 是 用 在 缓冲 区 维 
护 例 程 中 。 

MM， 位 于 循环 的 顶部 ,保存 了 当前 指令 的 长 度 ( 以 比特 为 单位 ) 。 

5 中 加 载 了 下 一 条 指令 的 头 两 字 节 ; 这 两 个 字 节 包含 了 确定 操作 码 和 下 一 条 指令 长 度 的 足 
够 的 信息 。 

16 保存 了 指向 当前 指令 的 解释 例 程 的 指针 。 

17 中 加 载 了 一 个 指向 下 一 条 指令 的 解释 例 程 的 指针 。 

r8 指向 解释 器 例 程 的 分 派 表 ; 每 个 条 目 是 8 个 字 节 。 

19 指向 记录 IA-32 指令 长 度 的 表 ; 每 个 条 目 是 1 个 字 节 。 
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rl0 保存 了 用 于 从 IA-32 代码 流 进行 预 取 的 指令 指针 。 

rll 中 加 载 了 8 字 节 的 预 取 的 IA-32 指令 ; 这 些 预 取 指 令 被 缓冲 区 维护 代码 所 使 用 (未 给 出 )。 

指令 的 译 码 是 分 层 的 ， 这 使 得 通常 情况 能 更 高 效 地 被 处 理 。IA-32 指令 集中 的 大 多 数 指令 是 
不 超过 6 个 字 节 。 因 此 针对 这 一 情况 对 分 派 循环 做 了 优化 。 图 2-15 显示 了 主 分 派 循 环 。 例 程 中 
的 前 两 条 指令 进行 指令 长 度 的 检查 ; 如 果 长 度 大 于 6， 则 需要 作 特 殊 处 理 ， 通 过 分 支 指令 转 到 例 
程 Iong_inst (没有 给 出 )。 例 程 接 下 来 的 三 条 指令 提取 要 被 解释 的 下 一 条 IA-32 指令 的 前 两 个 字 
节 ， 并 将 它 转化 为 一 个 双 字 (8 个 字 节 ) HAEE, BES 中 。 像 前 面 提 到 的 那样 ，IA-32 指令 
的 前 两 个 字 节 包含 了 关于 指令 长 度 和 操作 码 的 信息 。 


cr0,r4,48 ;Compare length Cin r4) with 48 (bits) 

crO, long_inst ;branch to long_inst if length > 48 

r5,ri1,r4 sshift instruction I+1 into r5 

r4,r5,16,0 ;extract upper 2 bytes of I+1 from "buffer" 
r5,r4,3 smultiply by 8: convert to double word offset 


r4,r4,r9 ‘look up instruction length for I+1 
r7,r5,r8 ;look up interpreter routine for I+1 
r11,0(r10) sprefetch next 8 bytes 
;move I's interpreter routine pointer into ctr 
;dispatch I; branch to ctr and link 
;move register; to maintain software pipeline 
;continue loop 


2-15 用 64 位 PowerPC 汇编 语言 编写 的 高 性 能 IA-32 解释 器 代码 的 主 分 派 循环 


接 下 来 的 三 条 指令 执行 了 一 连 串 的 内 存 加 载 。 前 两 条 是 表 查 询 以 找 出 下 一 条 源 指令 的 长 度 
和 指向 它 的 解释 器 例 程 的 指针 。 在 这 两 种 情况 下 ， 表 中 都 含有 64K 个 条 目 ， 因 为 它们 是 通过 IA- 
32 指令 的 前 两 个 字 节 来 索引 的 。 这 种 方法 在 表 中 产生 了 一 些 元 余 ， 因 为 在 确定 操作 类 型 和 指令 
长 度 时 并 不 总 是 需要 两 个 字 节 的 ， 但 是 直接 的 表 查 询 显 著 地 减少 了 所 需要 的 指令 数目 。 第 三 条 
加 载 指令 通过 保存 在 r10 中 的 指令 预 取 指 针 来 预 取 接 下 来 的 8 个 指令 字 节 。 这 是 后 面 要 描述 的 指 
令 缓冲 机 制 的 一 部 分 。 在 这 三 条 加 载 指令 发 射 之 后 ， 当 前 指令 会 通过 一 条 分 支 和 链接 指令 为 解 
释 而 被 分 派 。 最 后 ，m 被 复制 到 6 中 以 维持 软件 流水 线 ， 因 为 此 时 “下 一 条 ”指令 变 成 了 “ 当 
前 ”指令 。 

通过 软件 流水 的 方式 来 组 织 分 派 循环 的 关键 点 是 使 与 将 来 的 源 指 令 相关 的 三 条 加 载 操 作 和 
当前 指令 的 解释 相互 重 秋 。 如 果 三 条 加 载 指 令 中 任何 一 个 在 数据 cache 中 发 生 了 缺失 ， 那 么 缺失 
延迟 会 和 紧 随 的 当前 指令 解释 相 重 要 。 也 许 这 个 特征 对 于 预 取 指 令 字 节 是 最 关键 的 ， 因 为 这 个 
特殊 的 加 载 在 cache 中 有 较 高 的 缺失 率 。 注 意 当 关注 于 解释 器 代码 时 ，IA-32 指令 实际 上 是 数据 ， 
它们 会 和 真正 的 IA-32 数据 竞争 数据 cache。 

除了 分 派 代码 ， 还 必须 编写 管理 指令 预 取 缓 冲 区 的 代码 (RAE), REE r 和 中 。 这 
个 缓冲 区 维护 代码 会 作为 每 个 解释 器 例 程 的 一 部 分 被 执行 。 对 于 控制 转移 指令 (如 分 支 或 跳 
转 ) ， 寄 存 器 缓冲 区 填充 了 控制 转移 目标 的 指令 ， 并 且 各 种 寄存 器 被 适当 地 更 新 。 对 于 所 有 其 他 
指令 ， 缓 冲 区 维护 代码 将 指令 缓冲 区 “向 上 ”移动 一 个 刚 完成 的 指令 的 长 度 。 对 于 任何 给 定 指 
令 ， 这 个 长 度 是 通过 解释 例 程 获得 的 。 缓 冲 区 的 移动 包括 移动 上 面 的 缓冲 区 fl 并 用 下 面 的 芭 中 
的 指令 字 节 填充 它 。 缓 冲 区 的 长 度 ( 保 存在 13 中 ) 被 减少 并 检查 被 缓冲 的 字 节 数 是 否 降 到 8 个 
字 节 以 下 。 如 果 是 这 样 的 话 ， 预 取 指令 字 (在 rll 中 ,来自 于 发 送 循环 ) 被 复制 到 下 级 的 缓冲 区 
芭 中 ， 并 县 调整 缓冲 区 。 寄 存 器 r10 被 作为 一 个 指向 将 预 取 的 下 一 块 指令 的 指针 来 维持 。 

关于 性 能 ，FX! 32 开发 者 公布 说 他 们 手工 优化 的 译 码 - 分 派 解 释 器 消耗 平均 45 条 Alpha 指 
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令 来 仿真 一 条 IA-32 指令 (Chernoff ÆA, 1998), AA 1A-32 指令 比 Alpha 的 RISC 指令 复杂 得 
多 ,他们 进一步 估计 每 条 IA-32 Pentium Pro 微 操 作 (与 RISC 指令 大 致 等 价 ) 要 消耗 大 约 30 条 
Alpha 指令 。 


2.5 二 进 制 翻译 


通过 预 译 码 ， 所 有 相同 类 型 的 源 指令 会 用 相同 的 解释 例 程 来 执行 。 例 如 ， 所 有 的 取 字 并 置 零 
指令 都 由 图 2-9 中 给 出 的 代码 来 执行 ， 而 与 实际 使 用 的 寄存 器 无 关 。 把 每 个 单独 的 源 二 进 制 指令 
映射 到 它 自己 的 定制 目标 代码 上 ， 性 能 将 会 显著 增强 。 这 种 将 源 二 进 制程 序 转化 为 目标 二 进 制 
程序 的 过 程 被 称 为 二 进 制 翻译 (May 1987; Sites 等 人 ，1993) 。 图 2-16 中 说 明了 从 一 小 段 IA-32 
程序 序列 二 进 制 翻 译 到 PowerPC ISA 的 一 个 例子 。 注 意 在 这 个 和 下 面 的 例子 中 ， 为 简化 起 见 ， 省 
略 了 对 IA-32 条 件 码 的 仿真 。 条 件 码 的 仿真 将 单独 在 2. 8. 2 节 中 讨论 。 

add] %edx,4(%eax) 


movl 4(%eax) ,%edx 
add %eax, 4 


a) Intel IA-32 源 二 进 制 代码 序列 
rl points to IA-32 register context block 


r2 points to IA-32 memory image 
r3 contains IA-32 ISA PC value 










Iwz r4,0Cr1) ;load %eax from register block 
addi r5,r4,4 ;add 4 to %eax 

1wzx r5,r2,r5 sload operand from memory 

Iwz r4,12Cr1) ; load %edx from register block 
add r5,r4,r5 sperform add 

stw r5,12(r1) ;put result into %edx 

addi r3,r3,3 ;update PC (3 bytes) 

















Twz r4,0(rl1) ;load %eax from register block 
addi r5,r4,4 sadd 4 to %eax 

Iwz r4,12¢r1) ; load X%edx from register block 
Stwx r4,r2,r5 ;store %edx value into memory 
addi r3,r3,3 supdate PC (3 bytes) 


















Iwz r4,0Cr1) ;load %eax from register block 
addi r4,r4,4 sadd immediate 

stw r4,0c(r1) ;place result back into %eax 
addi r3,r3,3 ;update PC (3 bytes) 


b) PowerPC 目标 二 进 制 代码 
图 2-16 从 IA-32 二 进 制 代码 到 PowerPC 二 进 制 代码 的 二 进 制 翻译 

IA-32 源 指令 的 结构 寄存 器 的 值 由 一 个 内 存 中 的 寄存 器 上 下 文 块 来 维护 ， 并 被 取 到 目标 Pow- 
erPC ISA 的 寄存 器 中 。 某 些 目标 寄存 器 永久 地 分 配给 包含 或 者 指向 某 些 重要 的 且 经 常 使 用 的 源 
资源 。 例 如 ，rl 指向 寄存 器 上 下 文 块 ,z 指向 源 机 器 的 内 存 喘 像 ， 程 序 计 数 器 保存 在 七 中 。 正 
如 在 第 1 章 开 始 讨论 的 那样 ， 源 寄存 器 到 目标 寄存 器 的 映射 过 程 ， 比 如 程序 计数 器 ， 是 客户 机 到 
主机 的 状态 映射 的 一 个 非常 明显 的 例子 ， 它 是 虚拟 过 程 的 一 个 基本 部 分 。 

图 2-17 中 对 预 译 码 ( 带 有 线索 解释 ) 和 二 进 制 翻译 作 了 比较 。 在 两 种 情况 下 ， 起 初 的 源 代 
码 都 被 转化 为 另 一 种 形式 。 但 是 在 预 译 码 的 情况 下 ， 仍 然 需 要 解释 器 例 程 ， 而 在 二 进 制 翻译 中 转 
化 后 的 代码 被 直接 执行 。 

如 图 2-16 中 所 示 ， 和 人 解释 一 样 ， 二 进 制 翻译 后 的 代码 可 以 在 内 存 中 的 寄存 器 上 下 文 块 中 保 
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存 目 标 寄存 器 。 然 而 ， 因 为 每 条 指令 的 翻译 是 定制 的 ， 所 以 状态 映射 可 以 用 来 将 源 ISA 中 的 寄存 

器 直接 映射 到 目标 ISA 寄存 器 。 通 过 能 够 直接 访问 目标 代码 中 的 寄存 器 ， 对 上 下 文 块 的 内 存 访 [49 
问 被 消除 了 。 这 种 状态 映射 ， 尤 其 是 对 通用 寄存 器 ， 一 般 不 会 被 解释 器 采用 ， 除 非 那 些 通过 操作 |50 
码 来 暗示 的 特殊 寄存 器 ， 比 如 程序 计数 器 或 者 条 件 码 寄存 器 。 


= 二 进 制 翻译 
RC ARRIE 目标 代码 
源 代码 | ery 源 代 
| Ri | 
| hE | le 
| Ni | 


| 二进制 翻译 器 | 


L 、 | 


PR PO 
[ x 
f 
f 
i 
i 





图 2-17 从 目标 到 源 寄 存 器 的 状态 映射 
W ISA 目标 ISA 
源 寄存 器 块 


源 内 存 映 像 


程序 计数 器 


Reg 1 


Regn 
图 2-18 线索 解释 、 使 用 中 间 代 码 和 二 进 制 翻译 


图 2-18 描述 了 状态 映射 。 在 这 里 ， 一 些 目标 ISA 寄存 器 指向 内 存 映像 和 源 ISA 的 寄存 器 块 
《和 前 面 一 样 ) 。 另 外 ， 某 些 目 标 寄 存 器 被 直接 映射 到 某 些 源 寄 存 器 ; 即 源 值 被 维护 在 目标 寄存 
器 中 。 源 状态 的 其 他 部 分 ， 比 如 程序 计数 器 和 栈 指针 ， 也 可 以 被 保存 在 目标 寄存 器 中 。 在 映射 完 
成 后 ， 一 些 目标 寄存 器 应 该 保留 下 来 为 仿真 器 代码 使 用 。 有 关 寄 存 器 状态 映射 的 进一步 讨论 将 
在 2. 8. 1 节 中 进行 。 

图 2-19 说 明了 有 寄存 器 状态 映射 的 二 进 制 翻译 ， 这 里 图 2-16 中 的 三 条 IA-32 指令 被 翻译 为 7 
条 PowerPC 指令 ， 其 中 只 包括 一 条 更 新 源 程 序 计 数 器 的 指令 。 现 在 翻译 后 代码 的 执行 速度 开始 
变 得 与 最 初 的 源 代码 的 执行 速度 相当 了 。 此 外 ， 这 个 序列 可 以 通过 优化 来 进一步 缩减 (将 在 第 4 
章 中 讨论 ); 例如， 公共 子 表达 式 “addi r16, 4, 4” 的 第 二 个 实例 可 以 被 消除 。 
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rl points to IA-32 register context block 
r2 points to IA-32 memory image 

r3 contains IA-32 ISA PC value 

r4 holds IA-32 register %eax 

r7 holds IA-32 register %edx 













ri6,r4,4 ;add 4 to %eax 
Twzx r17,r2,r16 ; load operand from memory 
add r7,r17,r7 sperform add of %edx 

addi r16,r4,4 sadd 4 to %eax 

stwx r7,r2,r16 ;store %edx value into memory 
r4,r4,4 s;increment Xeax 
r3,r3,9 ;update PC (9 bytes) 


图 2-19 ”二进制 翻译 ， 状 态 映 射 在 翻译 块 边界 上 被 维护 
2.6 代码 发 现 和 动态 翻译 









2.6.1 代码 发 现 的 问题 


从 前 面 的 讨论 中 可 以 推断 出 ， 在 开始 仿真 之 前 可 以 对 一 个 程序 作 全 面 的 预 译 码 或 者 二 进 制 
翻译 。 这 被 称 为 静态 预 译 码 或 静态 翻译 ， 因 为 只 使 用 了 静态 的 (执行 前 ) 程序 信息 。 然 而 还 有 
许多 情况 ， 这 种 静态 方法 难以 实现 但 不 是 不 可 实现 的 (Horspool 和 Marovac 1980) 。 

考虑 下 面 的 场景 。 正 在 翻译 一 段 指令 序列 ， 此 时 遇 到 了 一 条 间接 跳 转 指令 。 这 种 跳 转 指令 的 
目标 保存 在 寄存 器 中 。 对 于 静态 预 译 码 和 静态 翻译 ， 难 以 〈 或 实际 上 不 可 能 ) 确定 寄存 器 的 内 
容 〈 和 跳 转 指令 的 目标 ) ， 这 是 因为 寄存 器 直到 运行 时 才 会 被 分 配 一 个 值 。 此 外 ， 如 果 想 对 紧 跟 
在 跳 转 指令 后 的 指令 继续 进行 预 译 码 或 翻译 ， 并 不 能 确保 紧 跟 在 跳 转 指令 后 的 位 置 包含 有 效 的 
指令 。 在 某 些 情况 下 ， 进 一 步 分 析 其 他 代码 可 以 提供 断定 紧 跟 在 跳 转 指令 后 的 位 置 是 一 个 有 效 
的 指令 的 可 能 性 ， 但 是 这 个 分 析 的 结果 不 是 总 能 得 到 的 。 

假设 编译 器 和 链接 器 保持 指令 彼此 间 的 连续 性 并 且 与 所 有 的 数据 项 分 离 ， 这 个 假设 看 起 来 是 合 
理 的， 然而 有 时 并 不 是 这 样 的 。 某 些 编译 器 (和 汇编 语言 程序 员 ) 在 代码 中 穿插 数据 。 例 如 ， 某 些 
编译 器 可 以 提供 一 个 (只 读 的 ) 掩 码 来 标识 包 些 寄存 器 被 过 程 调用 者 在 调用 时 保存 了 。 这 个 掩 码 可 
以 被 放 在 紧 跟 着 实现 调用 的 跳 转 -链接 指令 之 后 。 因 为 性 能 的 原因 ， 一 个 编译 器 也 可 以 用 不 用 的 字 
节 来 “填充 ”指令 流 ， 使 分 支 或 跳 转 目标 在 字 或 高 速 缓存 块 的 边界 上 对 齐 。 不 管 基于 什么 原因 在 代 
码 段 中 穿插 数据 ， 都 会 给 静态 地 确定 在 给 定 内 存 区 内 的 所 有 指令 序列 的 起 始点 造成 困难 。 

尽管 在 前 面 的 观察 中 ， 从 前 面 小 节 中 给 出 的 简单 的 例子 里 ， 静 态 预 译 码 和 二 进 制 翻译 看 起 
来 似乎 仍然 相当 简单 ， 因 为 在 那些 例子 里 我 们 考虑 的 是 固定 长 度 编码 的 RISC 指令 。 在 像 IA-32 
这 样 的 CISC ISA 中 ， 指 令 是 可 变 长 度 的 。 因 此 ，IA-32 指令 序列 可 以 开始 于 任意 字 节 边界 ， 而 
不 是 像 通 常 的 RISC ISA 那样 开始 于 字 边 界 。 即 便 知 道 某 个 内 存 位 置 是 代码 段 的 一 部 分 ， 在 CISC 
ISA 中 通常 也 很 难 确定 一 个 任意 字 节 是 否 是 一 个 新 指令 序列 的 起 始点 。 例 如 在 图 2-20 P, L 8b 
开始 的 字 节 是 标志 从 movl 指令 开始 的 序列 的 起 始点 ， 还 是 标志 前 面 某 条 指令 的 结束 点 并 以 下 一 
个 字 节 b5 开始 一 条 mov 指令 是 不 明显 的 。 


mov %ch,0 ?? 
31 c018b lb5 00 00 03 08 8b bd 00 00 03 00 
| movl %esi, 0x08030000(Xebp) 77 


图 2-20 在 一 个 指令 流 中 决定 IA-32 指令 的 边界 
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总 之 ， 在 使 用 传统 ISA 的 实际 代码 中 ,尤其 是 CISC ISA， 代 码 发 现 会 因为 指令 长 度 可 变 、 
寄存 器 间接 跳 转 、 在 指令 中 穿插 数据 和 为 对 齐 指令 所 做 的 填充 等 成 为 一 个 问题 ， 见 图 2-21。 


源 ISA 指令 


指令 流 中 的 数据 









| inst.5 | inste | 
[uncond. branch | pad [< 一 为 了 指令 对 齐 的 填充 
[inst 


TED BY ??? 
图 2-21 指令 发 现 问题 的 原因 


2.6.2 代码 定位 问题 


像 先 前 讨论 的 那样 ， 翻 译 后 的 代码 通过 目标 程序 计数 器 (TPC) 来 访问 ， 这 与 结构 源 程序 计 
数 器 (SPC) 不 同 。 当 在 源 代码 中 有 一 个 间接 控制 转移 (分支 或 跳 转 ) 时 ， 就 会 产生 问题 。 控 
制 转移 的 目的 地 址 被 保存 在 一 个 寄存 器 中 ,并 且 是 一 个 源 代码 地 址 ， 即 使 它 出 现在 翻译 后 的 代 
码 中 。 那 么 在 仿真 期 间 ， 必 须 提供 某 种 方式 将 一 个 SPC 地 址 映射 到 一 个 TPC 地 址 。 图 2-22 中 的 
代码 会 因为 目标 代码 不 能 跳 转 到 源 代码 位 置 而 不 能 正确 运行 。 这 个 问题 被 称 为 代码 定位 问题 。 


movi %eax, 4(%esp) ;load jump address from memory 
jmp %eax ;jump indirect through %eax 
a) IA-32 源 代码 


r16,r11,4 scompute IA-32 address 
r4,r2,r16 ;get IA-32 jump address from IA-32 memory image 


r4 ;move to count register (ctr) 
;jump indirect through ctr 


b) PowerPC 目标 代码 
图 2-22 间接 跳 转 代码 序列 的 翻译 。 两 种 情况 下 跳 转 寄存 器 中 的 值 都 是 
一 个 源 代码 地 址 ， 这 个 代码 翻译 不 能 正确 运行 


通常 ， 代 码 发 现 和 代码 定位 问题 需要 复杂 的 解决 办 法 ， 这 将 在 下 一 节 中 讨论 。 不 过 在 一 些 特 
殊 情 况 下 ， 解 决 办 法 比较 简单 。 其 中 之 一 我 们 已 经 见 到 了 : 在 典型 的 RISC ISA 中 ， 带 有 固定 长 
度 指令 的 指令 集 (典型 的 32 位 ) 总 是 在 固定 的 边界 上 被 对 齐 。 另 一 个 特殊 情况 出 现在 源 指 令 集 
为 了 被 仿真 而 被 明确 地 设计 ， 如 Java 字 节 码 。 这 些 虚拟 指令 集 不 允许 将 数据 穿插 到 代码 中 (5 
指令 相关 的 立即 数 除外 ) ， 它 们 限制 了 控制 流 指令 〈 分 支 和 跳 转 ) ， 这 使 得 代码 发 现 容易 了 。 


2. 6. 3” 增 量 式 预 译 码 和 翻译 


对 于 一 个 任意 的 ISA， 代 码 发 现 对 预 译 码 和 二 进 制 翻译 来 说 都 是 一 个 难题 。 在 两 种 情况 下 ， 
通常 的 解决 方案 是 在 程序 正 运行 在 实际 输入 数据 时 ， 即 动态 地 翻译 二 进 制 代 码 ， 并 且 在 程序 到 
达 新 代码 段 时 增 量 地 预 译 码 和 翻译 这 些 新 代码 段 。 因 为 对 预 译 码 和 二 进 制 翻译 来 说 ， 整 个 过 程 
大 体 相 同 ， 所 以 我 们 将 两 者 简称 为 翻译 。 

整个 过 程 如 图 2-23 所 示 。 高 级 控制 通过 一 个 仿真 管理 器 (Emulation Manager, EM) 来 提供 ， 
这 是 运行 时 支持 的 一 部 分 。 其 余 的 主要 组 件 包括 一 个 解释 器 和 二 进 制 翻译 器 。 解 释 器 可 以 是 2.2 
节 描 述 的 译 码 -分 派 解释 器 或 简单 的 线索 解释 器 。 重 要 的 一 点 是 这 个 解释 器 运行 于 原始 的 源 二 
进 制 代 码 上 。 

当代 码 块 被 翻译 (或 预 译 码 ) 时 ， 它 们 被 放 到 用 于 保存 它们 的 内 存 区 中 。 随 着 越 来 越 多 的 
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代码 被 翻译 ， 内 存 区 将 变 得 相当 大 ， 然 而 ， 这 对 很 少 使 用 的 代码 来 说 是 潜在 的 浪费 。 因 此 ， 为 了 
减少 保存 翻译 后 代码 的 内 存 空 间 ， 它 被 典型 地 组 织 为 一 个 代码 cache (Deutsch 和 Schiffman 1984) 。 
代码 cache 的 目的 是 保存 最 近 使 用 的 翻译 代码 块 。 我 们 将 推迟 到 第 3 章 介 绍 代 码 缓存 和 代码 cache 
管理 的 细节 。 对 于 本 章 剩 余 的 部 分 ， 读 者 可 以 简单 地 假设 代码 cache 总 是 足以 容纳 翻译 代码 。 

最 后 ， 一 张 映 射 表 将 源 代 码 块 的 SPC 和 相应 的 翻译 代码 块 的 TPC 联系 起 来 。 这 张 映射 表 本 
质 上 提供 了 一 种 对 代码 cache 索引 的 方式 ， 它 典型 地 被 实现 为 一 张 散 列表 。SPC 来 自 于 被 解释 的 
或 被 翻译 的 程序 ， 而 TPC 指向 代码 cache 中 的 翻译 块 的 开始 。 如 果 EM 想 要 找 出 一 个 翻译 代码 块 
(或 者 确定 它 是 否 已 经 被 翻译 ) ， 就 可 以 将 SPC 应 用 到 映射 表 。 如 果 代 码 块 已 经 被 翻译 〈 即 如 果 
在 代码 cache 中 有 一 个 命中 ) ， 则 产生 相应 的 TPC fA (指向 代码 cache 中 ) ; 否则 映射 表 指示 发 生 
了 代码 cache 缺失 ， 需 要 另外 的 翻译 。 








ee 


图 2-23 动态 翻译 系统 概览 。 虚 线 指示 数据 访问 ; 实 线 指示 控制 流 


这 个 系统 一 次 翻译 一 块 源 代码 。 在 简单 的 翻译 方案 中 ， 翻 译 的 正常 单元 是 动态 基本 块 。 一 
动态 基本 块 与 传统 的 基本 块 略 有 不 同 ， 后 者 由 程序 的 静态 结构 确定 〈 见 图 2-24a) 。 指 令 的 一 个 
静态 基本 块 包含 一 个 有 单个 人 口 和 单个 出 口 的 指令 序列 。 本 质 上 ， Ree ROT 
有 的 分 支 / 跳 转 指令 和 分 支 / 跳 转 目标 。 

一 个 动态 基本 块 是 由 程序 执行 时 的 实际 流程 决定 的 。 一 个 动态 基本 块 总 是 开始 于 分 支 或 跳 
转 后 立即 执行 的 指令 ， 沿 着 顺序 的 指令 流 ， 结 束 于 下 一 条 分 支 或 跳 转 指令 。 在 图 2-24b 中 ， 当 第 
一 次 从 项 部 进入 所 示 的 静态 循环 时 ， 在 loop 处 的 指令 恰好 是 一 个 分 支 的 目标 ,而 它 没有 结束 这 
个 动态 基本 块 。 这 个 动态 基本 块 继续 直到 遇 到 第 一 个 条 件 分 支 。 动 态 基 本 块 往往 比 静 态 基 本 块 
大 。 注 意 同样 的 静态 指令 可 以 属于 多 于 一 个 的 动态 基本 块 。 例 如 ， 在 标号 skip 处 的 add 指令 属于 
动态 基本 块 2， 也 属于 较 短 的 动态 基本 块 4。 在 这 本 书 的 剩余 部 分 ， 除 非 另外 说 明 ， 术 语 基 本 块 


都 指 “ 动 态 基 本 块 "。 本 章 中 的 翻译 方法 每 次 运行 在 一 个 动态 基本 块 上 。 不 过 ， 一 个 比 单个 动态 
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基本 块 大 的 翻译 单元 经 常 是 有 益 的 。 这 种 较 大 的 翻译 单元 将 在 第 4 章 中 讨论 。 


令 或 控制 转移 指令 的 目标 





a) 静态 基本 块 是 带 有 一 个 人 口 和 一 个 出 口 的 
代码 序列 。 它 们 开始 和 结束 于 控制 转移 指 


动态 基本 块 


add... 
load... 
store ... 
: load ... 
add .... 
store 








b) 动态 基本 块 通常 比 静 态 基 本 块 大 ， 
是 由 运行 时 实际 的 控制 流 决定 的 


图 2-24 静态 基本 块 对 动态 基本 块 


一 个 简单 的 、 增 量 式 翻 译 过 程 工作 如 下 : 
在 源 二 进 制 代码 被 加 载 到 内 存 中 后 ，EM 使 用 
简单 的 译 码 -分 派 或 间接 线索 方法 开始 解释 二 
进 制 代 码 。 随 着 它 的 进行 ,解释 器 动态 地 产生 
中 间 代 码 或 翻译 后 的 目标 二 进 制 代 码 。 翻 译 代 
码 被 放 到 代码 cache 中 ， 相 应 的 SPC 到 TPC BR 
射 被 放 到 映射 表 中 。 当 过 到 分 支 或 跳 转 指令 
时 ， 解 释 器 就 完成 了 一 个 动态 基本 块 的 翻译 。 

接着 ，EM 会 沿 着 源 程序 的 控制 流 路 径 
(使 用 映射 表 ) ， 或 者 在 下 一 块 已 经 被 翻译 (在 
表 中 有 一 个 命中 ) 时 直接 执行 下 一 块 ， 或 者 在 
下 一 块 还 没有 翻译 (在 表 中 缺失 ) 时 开始 翻译 
下 一 个 动态 基本 块 。 逐 渐 地 ， 程 序 的 更 多 部 分 
被 发 现 和 翻译 ， 直 到 最 终 只 执行 翻译 代码 GE 
接 从 一 个 翻译 块 到 下 一 个 翻译 块 的 控制 流 的 仿 
真 管理 器 代码 除外 一 一 图 2-25 ) 。 图 2-26 给 出 
的 流程 图 总 结 了 整个 过 程 。 





图 2-25 包括 翻译 块 的 控制 流 。 仿 真 管理 器 处 理 从 
一 个 翻译 块 到 下 一 个 翻译 块 的 控制 转移 


翻译 过 程 的 明显 复杂 因素 出 现在 当 一 个 分 支 进入 到 已 被 翻译 的 块 的 中 间 时 。 在 那 一 点 ， 目 
的 翻译 块 会 被 分 成 两 部 分 。 不 过 ， 为 了 发 现 这 种 情况 ， 有 必要 维护 一 个 额外 的 数据 结构 来 追踪 被 
翻译 的 代码 块 的 地 址 范围 ， 接 着 只 要 在 映射 表 中 发 生 缺 失 时 就 搜索 这 个 结构 。 当 使 用 动态 基本 
块 时 ， 这 个 明显 复杂 因素 不 会 出 现 〈 这 是 使 用 动态 基本 块 的 一 个 主要 原因 )。 当 在 映射 表 中 有 缺 
失 时 ， 总 是 开始 新 的 翻译 ， 即 使 它 导致 翻译 代码 片段 的 重复 。 
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在 表 中 命中 ? 
使 用 SPC 从 
分 支 到 TCP | o [ees 
并 执行 翻译 块 、 ， 


疝 映射 表 中 写 人 
得 到 下 一 块 的 
SPC 


新 的 SPC © TPC 
图 2-26 动态 翻译 流程 图 













的 映射 





58 追踪 源 程序 代码 

5 对 翻译 系统 来 说 ， 在 仿真 正在 发 生 时 一 直 追 踪 
SPC 的 值 是 重要 的 。 在 翻译 系统 中 ， 控 制 根据 需要 
在 解释 器 、EM 和 代码 cache 中 的 翻译 块 之 间 转 移 ， 
并 且 每 一 部 分 必须 有 追踪 SPC 的 方式 。 首 先 ， 当 解 
释 器 取 源 指令 时 直接 使 用 SPC。 当 解释 器 在 一 个 基 
本 块 的 末端 将 控制 转移 到 EM 时 ， 它 将 下 一 个 SPC 
传递 给 EM。 类 似 的 ， 当 一 块 翻译 代码 完成 执行 时 ， 
下 一 个 SPC 的 值 必须 对 EM 可 用 。 这 样 做 的 一 种 方 





式 就 是 将 SPC 映射 到 主机 平台 上 的 一 个 寄存 器 中 ， 代码 块 
在 每 条 翻译 指令 或 者 每 个 翻译 块 的 末端 这 个 寄存 器 
将 被 更 新 (如 图 2-19) 。 图 2-27 给 出 了 另 一 种 可 能 图 2-27 通过 存根 链接 翻译 块 


性 。 这 里 ， 下 一 个 SPC 的 值 被 放 在 翻译 块 末端 的 一 个 “存根 (stub)” 中 。 当 翻译 块 结束 时 ， 使 
用 一 个 跳 转 - 链接 COAL) 指令 将 控制 转移 回 EM。 然 后 ， 链 接 寄存 器 就 可 以 被 EM 使 用 以 从 翻 
译 代 码 块 的 末端 访问 SPC (Cmelik 和 Keppel 1994) 。 

例子 

图 2-28 是 一 个 扩展 的 例子 ， 它 说 明了 图 2-27 中 的 所 有 部 分 。 在 这 个 例子 中 ， 两 个 IA-32 代 
码 的 基本 块 已 被 二 进 制 翻译 成 PowerPC 代码 块 。 下 列 次 序 发 生 在 一 个 翻译 块 结束 并 且 通 过 仿真 
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管理 器 将 控制 转移 到 下 一 个 翻译 块 时 。 

- 执行 翻译 过 的 基本 块 。 

- 分 支 转 到 存根 代码 。 

- 存根 执行 分 支 并 链接 到 仿真 管理 器 的 人 口 点 。 

. EM 使 用 链接 寄存 器 从 存根 代码 中 加 载 SPC。 

. EM 将 SPC 散 列 到 16 比特 并 且 在 映射 表 中 作 查 找 。 

. EM 从 映射 表 中 加 载 SPC 的 值 ; 接着 与 存根 SPC 比较 。 
. 分支 到 能 将 代码 转移 回 翻译 的 代码 。 

. 从 映射 表 中 加 载 TPC。 

. 间接 跳 转 到 下 一 个 翻译 基本 块 。 


QO nD Nme 


Oo oo u 


;load and accumulate sum 
;Store to memory 


;decrement loop count 
branch if at loop end 
jincrement %eax 
Jump to loop top 


;Store last value of %edx 
sclear %edx 
lump elsewhere 





PowerPC Wi 


r16,0(r4) sload value from memory 
add 17,716 accumulate sum 

stw r7,0(r4) :Store to memory 

addic.  r5,r5,-1 decrement loop count, set cr0 
‘branch if loop exit 

¡branch & link to EM 


















th 
0 r20 i 7 ‘retieve address in link register 
pe wz 120,0420) {toad SPC from stub 
siwi r2i $0,16 ? perform halfword shift left 
xor r21 f21,120 1 ;perform XOR hash 
srwi r248r21,12 # finish hash - logical shift 
lwzux 21,139" ;access at hash address w/update 
/ r30 points to map table base 
cmpw cr0.r26,p0 ;compare for hit 
beq cro, rury suse target address 






lookup’ i :8lse follow hash chain 










stead target address from table 
mtir r27 ¡branch to next translated block 
blr 







lookup_translate: follow hash chain, if hit, branch to TPC 
If miss, branch to transiate 





图 2-28 二进制 翻译 的 例子 
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其 他 问题 

关于 指令 级 仿真 和 动态 翻译 的 其 他 问题 将 包含 在 第 3 章 和 第 4 章 中 。 这 里 是 其 中 比较 重要 的 
问题 。 

自修 改 代码 (self-modifying code) 尽管 它 在 许多 应 用 中 少 有 ， 但 是 程序 偶尔 会 执行 存 
人 代码 区 的 操作 ; 即 代码 是 自修 改 的 。 当 这 种 情况 发 生 时 ， 保 存 于 代码 cache 中 的 翻译 代码 可 能 
不 再 与 被 修改 的 源 代 码 相 关 。 因 此 ， 必 须 有 适当 的 机 制 来 调用 重新 翻译 。3. 4.2 节 中 包含 了 对 自 
修改 代码 的 处 理 。 

自 引用 代码 〈self-referencing code) 一 一 这 里 ， 程 序 执行 从 代码 区 的 加 载 。 当 这 种 情况 发 生 
时 ， 读 出 的 数据 必须 对 应 到 原始 的 源 代 码 ， 而 不 是 翻译 版 本 。3. 4. 2 节 中 也 包含 了 对 自 引用 代码 
的 处 理 。 

精确 陷阱 一 一 如 果 翻 译 代码 将 经 历 一 个 异常 条 件 中断 或 陷阱 ) ， 则 必须 产生 与 原始 的 源 代 
码 相 对 应 的 正确 状态 ， 包 括 陷阱 指令 的 SPC 值 。 在 发 生 陷 阱 或 中 断 时 提供 精确 的 状态 是 贯穿 于 
第 3 章 和 第 4 章 的 一 个 重要 的 连续 话题 。 


2.6.4 相同 -ISA 仿真 


尽管 它 起 先 好 像 是 一 个 奇怪 的 想法 ,但 是 在 源 和 目标 ISA 相同 的 地 方 和 本 章 中 所 描述 的 仿 
真 技 术 被 使 用 的 地 方 ， 相 同 -ISA 仿真 有 着 重要 的 虚拟 机 应 用 。 当 然 ， 并 没有 合乎 逻辑 的 理由 说 
明 为 什么 一 个 指令 集 不 能 被 用 来 仿真 它 本 身 。 例 如 ， 使 用 解释 技术 ， 源 二 进 制 指令 可 以 被 发 现 、 
解析 和 仿真 而 不 关心 目标 和 源 ISA 是 否 相同 。 并 且 自 然 地 ， 当 源 和 目标 ISA 相同 时 , “二 进 制 翻 
译 ” 被 极 大 地 简化 了 。 

相同 -ISA 仿真 的 一 个 重要 且 有 用 的 方面 是 仿真 管理 器 总 是 控制 正 被 仿真 的 软件 。 仿 真 软件 
发 现 并 检查 每 条 源 指令 ， 在 这 个 过 程 中 能 够 识别 被 那 条 特定 指令 执行 的 有 关 操 作 的 细节 。 此 外 ， 
它 可 以 在 任何 期 望 的 细节 级 别 上 监控 源 程序 的 执行 。 这 种 监控 ,或 者 说 代码 管理 的 能 力 对 许多 
相同 -ISA 仿真 的 应 用 都 是 一 个 关键 。 一 种 应 用 就 是 模拟 (simulation) ， 其 中 动态 程序 的 特性 在 模 
拟 过 程 中 被 收集 。 模 拟 是 影子 系统 (shade system) 的 一 个 主要 应 用 ， 在 2.9 节 中 作为 一 个 案例 
来 讨论 。 第 二 种 应 用 是 虚拟 机 中 的 操作 系统 调用 仿真 ， 其 中 ISA 相同 但 主机 操作 系统 和 客户 机 
操作 系统 不 同 。 通 过 使 用 仿真 技术 ， 客 户 机 的 源 二 进 制 代 码 中 的 所 有 操作 系统 调用 可 以 被 探测 
和 翻译 为 主机 操作 系统 调用 。 第 三 种 应 用 是 某 些 特权 操作 的 发 现 和 管理 ， 这 些 操作 需要 某 些 系 
统 虚拟 机 中 的 特殊 处 理 ; 这 些 将 在 第 8 章 中 讨论 。 第 四 种 应 用 将 在 第 10 章 中 讨论 ， 是 “程序 引 
导 ”， 其 中 控制 转移 目标 和 其 他 指令 被 监控 以 确保 它们 不 会 产生 安全 漏洞 。 最 后 ， 还 有 一 种 相同 - 
ISA 的 动态 二 进 制 优化 应 用 ， 其 中 在 程序 执行 时 使 用 运行 时 信息 来 帮助 优化 程序 二 进 制 代码 ， 尽 
管 没有 执行 ISA 翻译 。 这 最 后 的 应 用 可 以 用 作 其 本 身 的 目标 ， 但 是 可 能 更 加 重要 的 是 ， 它 允许 实 
现 其 他 应 用 而 减轻 任何 因此 而 带 来 的 性 能 损失 。 

相同 -ISA 的 解释 不 需要 专门 讨论 ; 这 种 技术 与 前 面 描述 的 完全 一 样 。 对 于 二 进 制 “ 翻 译 ”” 
(不 带 有 优化 ) ， 最 简单 的 技术 是 仅仅 复制 代码 ,在 目标 和 源 中 使 用 完全 相同 的 代码 (TAR 
作 系 统 调 用 和 需要 特殊 处 理 的 指令 ) 。 相 同 -ISA 的 动态 二 进 制 代 码 优化 在 4. 7 节 中 讨论 。 


2.7 控制 转移 优化 
使 用 迄今 为 止 描述 的 简单 翻译 方法 ， 每 次 一 个 翻译 块 结束 执行 ，EM 必须 再 次 进入 并 且 会 产 








O 因为 源 和 目标 使 用 相同 -ISA， 我 们 把 翻译 放 在 双 引 号 中 ; 然而 ,我们 正在 使 用 与 真正 执行 翻译 时 相同 的 
过 程 。 
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生 一 次 SPC 到 TPC 的 查找 。 通 过 消除 在 每 对 翻译 块 之 间 经 过 EM 的 要 求 ， 可 以 有 许多 降低 这 种 
开销 的 优化 。 这 些 优化 将 在 下 面 的 小 节 中 讨论 。 


2.7.1 翻译 链接 


二 进 制 翻译 器 中 的 链接 (chaining) 是 解释 器 中 线索 化 的 副本 。 块 可 以 直接 互相 连接 起 来 ， 
而 不 是 在 每 个 翻译 块 末端 转移 到 仿真 管理 器 。 这 在 图 2-29 中 作 了 说 明 。 


在 这 种 方式 中 ， 每 次 翻译 一 个 块 ， 但 是 
在 它们 被 构造 时 就 被 链接 在 一 起 形成 链 。 链 
接 是 通过 将 开始 于 一 条 跳 转 和 链接 (或 分 支 
和 链接 ，bl， 在 PowerPC 中 ) E EM 的 方法 
(如 图 2-27)， 替 换 为 一 个 直接 转移 到 后 继 翻 
译 块 的 方法 来 完成 的 。 后 继 翻译 块 的 地 址 是 
通过 使 用 SPC 的 值 访问 映射 表 ， 找 出 相应 的 
TPC (如 果 相 应 的 基本 块 已 经 被 翻译 ) 来 确 
定 的 。 

如 果 后 继 块 还 没有 被 翻译 ， 那 么 将 插入 
标准 的 存根 代码 。 在 稍 后 的 某 一 时 刻 ， 当 后 
继 块 被 翻译 并 且 前 驱 块 退出 进 到 EM 之 后 ， 








图 2-29 ”翻译 块 链接 ， 避 免 通 过 仿真 管理 器 间接 转移 


EM 将 访问 映射 表 ， 找 出 在 表 中 的 条 目 ， 取 回 后 继 块 的 TPC。 在 那 点 上 ，EM 通过 将 前 驱 块 中 的 
跳 转 -链接 (在 PowerPC 说 法 中 是 分 支 - 链接 ) 重 写 为 直接 跳 转 到 后 继 块 ， 可 以 建立 起 到 后 继 
块 的 一 个 链接 。 这 个 过 程 中 的 步骤 在 图 2-30 中 说 明 。 图 2-31 中 给 出 了 对 图 2-28 中 的 代码 实例 添 


加 上 了 链接 。 


链接 可 以 工作 于 那些 将 SPC 放 到 在 翻译 块 示 端的 存根 中 的 情况 ， 如 图 227。 在 这 些 情况 中 ， 
分 支 或 跳 转 的 目的 地 从 不 改变 。 然 而 对 于 寄存 器 间接 跳 转 ， 尤 其 是 过 程 返 回 ， 日 标 可 能 会 从 跳 转 
的 一 次 执行 变化 到 下 一 次 执行 。 因 为 单个 SPC 不 能 和 被 寄存 器 间接 跳 转 所 结束 的 翻译 块 相关 联 ， 
所 以 在 这 些 情况 下 链接 是 不 方便 的 。 因 此 ， 处 理 间接 跳 转 的 最 简单 方法 是 总 经 过 EM 并 让 EM 通 
过 映射 表 查 询 正确 的 TPC。 处 理 间接 跳 转 更 快 的 方法 将 在 下 两 个 小 节 中 描述 。 


得 到 下 一 个 





图 2-30 ”创建 一 个 从 翻译 前 驱 块 到 后 继 块 的 连接 
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PowerPC 翻译 


r16,0(r4) ioad value from memory 
r7,r7,r16 ;accumulate sum 
r7,0(r4) ;Store to memory 
r5,r5,-1 ;decrement loop count, set crÔ 
cr0,pc+12 ;branch if loop exit 
F000 ;branch & link to EM 

;Save source PC in link register 


9c08 ;branch along chain 
;Save source PC in link register 


r7,0(r6) ;Store last value of %edx 
TAT AT clear %edx 
F000 ibranch & link to EM 
;Save source PC in link register 





图 2-31 采用 链接 实现 ， 从 前 面 例子 中 翻译 得 到 的 PowerPC 代码 


2.7.2 软件 间接 跳 转 预测 


像 前 面 指 出 的 那样 ， 在 运行 时 通过 映射 表 查 找 实现 间接 跳 转 是 昂贵 的 。 它 需要 多 条 指令 来 
散 列 SPC 以 形成 到 映射 表 的 索引 ， 然 后 至 少 用 一 条 加 载 和 一 条 比较 指令 来 找 出 匹配 的 表 条 目 ， 
最 后 用 一 条 加 载 和 一 条 间接 跳 转 到 TPC 地 址 的 指令 上 。 然 而 在 许多 情况 下 ， 跳 转 目 标 从 来 不 或 
很 少 改变 。 在 这 些 情况 里 ， 一 种 软件 跳 转 预测 形式 可 以 用 来 降低 间接 跳 转 的 开销 。 这 实质 上 是 一 
种 内 联 高 速 组 看 (inline caching) 的 实现 ， 它 是 为 快速 Smalltalk 仿真 (Deutsch 和 Schiffman 
1984) 而 开发 的 。 图 2-32 说 明了 这 一 技术 。 在 这 个 实例 中 ，Rx 符号 表示 一 个 保存 间接 跳 转 目标 
PC 值 的 寄存 器 。 在 一 系列 的 计 语 名 中， 最 频繁 的 SPC 地 址 和 它们 匹配 的 TPC 地 址 ， 被 编码 成 翻 
译 的 二 进 制 代码 (这 里 为 清楚 起 见 以 高 级 语言 的 形式 给 出 ) 。 然 后 间接 跳 转 寄存 器 的 值 可 以 与 
SPC 的 值 相 比较 ; 如 果 有 一 个 匹配 ， 则 转移 到 目的 地 〈 可 能 翻译 成 一 条 PC 相关 的 分 支 指令 ) 。 
典型 地 ， 这 种 比较 是 有 序 的 ， 最 频繁 的 SPC 目的 地 址 被 首先 给 出 。 当 然 ， 在 最 坏 情 况 下 ， 如 
果 所 有 的 预测 都 是 错误 的 ， 那 么 无 论 如 何 都 必须 执行 映射 表 查 找 ， 所 以 会 损失 额外 的 性 能 。 
因此 ,这 种 技术 应 该 与 剖析 (Pprofiling) 相 结 合 ， 放 析 提 供 关 于 间接 跳 转 目标 的 精确 信息 
(4.2.4 节 )。 


if(Rx == addr_1) goto target_l; 
else if (Rx == addr_2) goto target 2; 


else if (Rx == addr_3) goto target_3; 
else table_lookup(Rx) ; do it the slow way 





图 2-32 通过 内 联 高 速 缓存 的 软件 间接 跳 转 预测 。 源 PC 值 由 立即 数 addr_i 给 出 ; 
相应 的 目标 PC 值 由 target_i 给 出 
当 使 用 这 种 方式 时 ，EM 维护 了 一 张 索引 表 (side table) 来 追踪 能 够 通过 这 种 软件 预测 到 达 
的 后 继 翻 译 块 。 如 果 后 继 翻 译 块 从 代码 cache 中 删除 ， 前 驱 块 中 的 软件 预测 代码 也 必须 被 修改 或 
删除 〈 并 用 一 个 映射 表 查 询 来 代替 ) 。 


2.7.3 BFR 
当 一 个 翻译 代码 含有 通过 间接 跳 转 到 目标 二 进 制 例 程 的 过 程 调用 时 ，SPC 值 必须 由 仿真 代码 
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作为 源 结构 状态 的 一 部 分 保存 于 寄存 器 或 内 存 栈 中 (依赖 于 源 ISA) 。 接 着 当 过 程 调用 结束 时 ， 
它 可 以 恢复 这 个 SPC (A, 访问 映射 表 ， 并且 跳 转 到 在 返回 地 址 处 的 翻译 代码 块 。 像 前 面 指出 的 
那样 ， 映 射 表 查 找 给 仿真 过 程 增 加 了 开销 。 如 果 目 标 返 回 PC 值 可 以 直接 利用 ， 如 作为 一 个 链接 
地 址 ， 那 么 这 一 开销 是 可 以 避免 的 。 

为 了 执行 这 种 优化 ， 目 标 代码 的 返回 (链接) 值 被 压 进 一 个 由 仿真 管理 器 维护 的 影子 栈 中 
(Chernoff 等 人 ，1998 ) 。 注 意 这 个 返回 值 没 必要 是 紧 跟 在 过 程 跳 转 后 的 内 存 地 址 ; 如 果 跳 转 是 在 
翻译 块 的 边界 上 ， 例如， 那么 目标 返回 值 可 以 被 链接 到 下 一 个 翻译 块 的 开始 。 在 任何 情况 下 ， 当 
到 该 返回 的 时 候 时 ， 这 个 翻译 代码 地 址 从 影子 栈 中 弹出 并 且 避 免 了 映射 表 查 找 。 然 而 有 一 个 问 
题 。 在 调用 和 最 终 返 回 之 间 ， 源 代码 可 能 会 改变 其 栈 的 内 容 。 因 此 ， 在 影子 栈 被 用 来 提供 目标 返 
回 地 址 之 前 ， 必 须 将 栈 顶 的 值 与 相应 的 源 返 回 地 址 核对 。 从 而 ， 影 子 栈 的 栈 帧 被 扩展 到 不 仅 包 括 
目标 翻译 代码 的 返回 地 址 ， 而 且 包 括 源 二 进 制 代码 的 返回 地 址 。 源 返回 地 址 与 影子 栈 中 返回 地 
址 的 源 域 相 比较 。 如 果 相 匹配 ,那么 可 以 使 用 影子 栈 中 的 目标 返回 地 址 。 如 果 不 匹 配 ， 那 么 按 传 
统 方式 使 用 源 返 回 地 址 访问 映射 表 。 

影子 栈 机 制 在 图 2-33 中 说 明 ， 这 里 源 ISA 是 IA-32 而 目标 ISA 是 PowerPC。IA-32 使 用 了 一 
种 体系 结构 栈 。 当 代码 执行 过 程 调 用 时 ，PowerPC 返回 地 址 与 IA-32 返回 地 址 一 起 被 压 进 影子 栈 
中 。 然 后 到 返回 的 时 候 ， 从 仿真 IA-32 栈 中 加 载 IA-32 返回 地 址 。 这 个 地 址 与 保存 于 影子 栈 中 的 
IA-32 返回 地 址 相 比较 。 如 果 匹 配 ， 那 么 影子 栈 中 的 PowerPC 返回 值 与 源 代 码 的 返回 值 一 致 ， 
PowerPC 返回 值 可 以 被 用 来 跳 转 到 返回 翻译 块 。 否 则 ， 用 从 IA-32 栈 中 取 回 的 IA-32 返回 值 来 散 
列 进入 返回 地 址 的 PC 映射 表 。 
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图 2-33 ”影子 栈 实现 迅速 返回 翻译 代码 
注意 IA-32 栈 指针 也 保存 在 影子 栈 中 。 如 果 客 户 机 程序 偶然 通过 丢弃 许多 栈 帧 前 减 了 IA-32 
栈 ， 可 以 通过 比较 影子 栈 和 仿真 IA-32 栈 的 指针 来 发 现 这 种 情况 。 如 果 不 匹 配 ， 仿 真 IA-32 栈 指 
针 则 可 以 用 来 削减 影子 栈 ， 使 得 它 与 仿真 的 源 栈 保持 一 致 。 


2.8 指令 集 问题 

迄今 ,我 们 提供 了 几 个 指令 集 仿真 的 例子 。 在 翻译 和 解释 一 个 完整 的 指令 集 时 还 有 更 多 的 
细节 要 考虑 。 其 中 一 些 细节 将 在 本 节 中 讨论 ; 一 些 是 特定 于 某 些 指令 集 的 ， 其 他 则 应 用 得 更 
普遍 。 
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2.8.1 寄存 器 结构 


事实 上 每 个 ISA 都 使 用 某 种 寄存 器 。 寄 存 器 在 存储 层次 的 最 顶端 并 且 对 性 能 是 决定 性 的 。 
因此 ， 寄 存 器 的 处 理 方式 是 仿真 过 程 中 的 一 个 关键 问题 。 目 标 ISA 的 通用 寄存 器 有 许多 功能 ， 包 
括 : (1) 保存 源 ISA 的 通用 寄存 器 ，(2) 保存 源 ISA 的 专用 寄存 器 ，(3) 指向 源 寄存 器 上 下 文 
块 和 内 存 映像 ，(4) 保存 仿真 器 使 用 的 中 间 值 。 

如 果 目 标 寄 存 器 的 数目 显著 多 于 源 寄 存 器 的 数目 ,那么 就 可 以 同时 满足 目标 寄存 器 的 上 述 
全 部 使 用 。 例 如 ， 在 一 个 像 PowerPC 那样 的 32 个 寄存 器 的 RISC 上 仿真 IA-32 时 ， 所 有 的 IA-32 
通用 寄存 器 和 一 些 专用 寄存 器 ， 例 如 程序 计数 器 ， 可 以 被 映射 到 目标 寄存 器 ， 并 且 还 有 剩余 的 寄 
存 器 指向 寄存 器 上 下 文 块 、 源 内 存 映 像 ， 以 及 被 仿真 代码 使 用 的 暂时 寄存 器 。 

在 其 他 情况 下 ， 可 能 没有 足够 的 目标 寄存 器 来 执行 上 述 所 有 功能 ， 尤 其 是 当 源 和 目标 ISA 
有 大 约 相同 数目 的 通用 寄存 器 时 。 在 这 些 情况 下 ， 必 须 仔 细 管 理 目标 通用 寄存 器 的 使 用 。 需 
要 两 个 寄存 器 来 指向 寄存 器 上 下 文 块 和 源 内 存 映 像 ， 这 些 指 针 在 仿真 过 程 中 被 频繁 使 用 。 类 
似 地 ， 必 须 将 一 个 目标 寄存 器 分 配给 程序 计数 器 。 例 如 ， 这 样 的 寄存 器 分 配 用 在 图 2-18 中 。 
如 果 使 用 解释 ， 也 必须 指定 一 个 目标 寄存 器 来 保存 SPC。 如 果 使 用 二 进 制 翻译 或 预 译 码 ， 需 
要 一 个 额外 的 寄存 器 来 保存 TPC。 如 果 源 ISA 有 一 个 栈 指针 、 条 件 码 或 者 其 他 频繁 使 用 的 专 
用 寄存 器 ， 也 应 该 将 目标 寄存 器 分 配给 这 些 。 这 总 共 会 消耗 3 到 10 个 目标 寄存 器 。 这 样 ， 除 
了 那些 映射 源 通用 寄存 器 所 需 的 目标 寄存 器 之 外 ， 还 需要 3 到 10 个 通用 目标 寄存 器 来 保存 源 
ISA 资源 的 状态 。 

在 给 最 通常 或 者 决定 性 能 的 源 资 源 分 配 了 目标 寄存 器 之 后 ， 仿 真 管理 器 必须 分 配 剩 余 的 目 
标 通用 寄存 器 。 如 果 使 用 解释 ， 剩 余 的 寄存 器 可 以 被 解释 器 用 作 暂 时 寄存 器 。 如 果 使 用 翻译 ， 那 
么 在 翻译 块 基础 上 源 寄 存 器 可 以 被 映射 到 目标 寄存 器 。 当 进入 翻译 块 时 ， 将 翻译 代码 中 要 读 的 
所 有 寄存 器 从 上 下 文 块 复制 到 目标 寄存 器 。 当 离开 翻译 块 时 ， 将 任何 被 修改 的 寄存 器 复制 回 上 
下 文 块 。 如 果 翻 译 块 特别 大 ， 那 么 源 寄 存 器 可 能 会 溢出 到 上 下 文 块 。 在 前 面 给 出 的 某 些 二 进 制 翻 
译 的 例子 中 ， 如 图 2-19 所 示 ， 并 没有 显示 这 些 中 间 产 物 溢 出 到 上 下 文 块 ， 尽 管 它们 在 实际 中 会 
被 用 到 。 


2.8.2 条 件 码 


条 件 码 是 特殊 的 结构 位 ， 它 刻画 了 指令 的 结果 ( 零 、 负 数 等 ) ， 会 被 条 件 分 支 指令 所 测试 。 
然而 ， 不 同 的 ISA 在 条 件 码 的 使 用 方式 或 是 否 使 用 条 件 码 方面 一 点 也 不 一 致 。Intel IA-32 ISA 隐 
式 地 设置 条 件 码 来 作为 大 多 数 指令 执行 的 副作用 ; 因此 ， 条 件 码 和 通用 寄存 器 一 样 被 经 常 更 新 。 
SPARC ISA 含有 显 式 设置 的 条 件 码 ， 只 有 当 预 料 到 它们 会 被 真正 使 用 时 才 更 新 条 件 码 。PowerPC 
ISA 有 许多 条 件 码 寄存 器 ， 它 们 也 是 显 式 设置 的 。 更 复杂 的 是 ， 某 些 ISA 不 使 用 任何 条 件 码 ; 
MIPS ISA 就 是 一 个 例子 。 

仿真 复杂 性 会 显著 不 同 ， 依 赖 于 源 ISA、 目 标 ISA、 或 者 两 者 都 使 用 、 或 者 两 者 都 不 使 用 条 
件 码 。 最 简单 的 情况 是 如 果 两 者 都 不 使 用 条 件 码 。 几 乎 同样 简单 的 情况 是 源 ISA 不 使 用 条 件 码 
而 目标 ISA 使 用 。 这 里 ， 可 能 需要 某 些 额外 的 目标 指令 来 生成 条 件 码 的 值 ， 但 是 没有 必要 维护 任 
何 源 条 件 码 的 状态 。 图 2-34 说 明了 在 PowerPC 上 仿真 MIPS。 这 里 ，MIPS ISA 中 的 一 条 条 件 分 
支 指令 被 翻译 成 两 条 PowerPC ISA 的 指令 一 一 一 条 是 设置 条 件 寄 存 器 (图 中 的 crl ) ， 第 二 条 是 
通过 测试 crl 执行 条 件 分 支 。 
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beq r1,r2,offset 
a) MIPS 相等 分 支 

cmpw cri,ri,r2 

beq cr1,offset 


b ) PowerPC 翻译 为 一 条 比 
较 指 令 后 跟 一 条 分 支 


图 2-34 从 MIPS ISA 到 PowerPC ISA 条 件 分 支 的 二 进 制 番 译 


如 果 目 标 ISA 没有 条 件 码 ， 那 么 源 条 件 码 必须 被 仿真 ， 并 且 这 种 仿真 会 消耗 时 间 AE AY E 
题 通 常 发 生 在 源 ISA 有 隐 式 设置 条 件 码 而 且 标 ISA 没有 条 件 码 。 正 是 因为 这 些 困 难 ， 到 目前 为 
止 的 例子 中 我 们 都 忽略 了 IA-32 条 件 码 的 仿真 。 

回顾 隐 式 设置 条 件 码 会 作为 许多 指令 的 副作用 被 修改 。 在 Intel IA-32 里 ， 条 件 码 是 一 组 保存 
在 EFLAGS 寄存 器 中 的 “标记 ”。 只 要 它 被 执行 ，IA-32 整数 加 法 指令 总 是 设置 这 些 条 件 码 ( 标 
记 ) 当中 的 6 个 。 被 add 设置 的 条 件 码 是 : 

OF; 指出 是 否 发 生 整 数 溢 出 

SF; 指出 结果 的 符号 

ZF: 指出 一 个 零 结果 

AF: 指出 在 结果 的 第 3 位 上 输出 的 一 个 进位 或 借 位 〈 用 于 BCD 运算 ) 

CF: 指出 在 结果 的 最 高 有 效 位 上 输出 的 一 个 进位 或 借 位 

PF; 指出 结果 的 最 不 重要 字 节 的 奇偶 性 

在 简单 的 仿真 中 ， 每 当 一 个 IA-32 add 被 仿真 时 ， 仿 真 代码 都 会 计算 每 个 条 件 码 的 值 。 大 多 
数 条 件 码 的 求 值 都 是 简单 的 。 例 如 ， 结 果 的 符号 可 以 使 用 一 个 简单 的 移 位 来 确定 。 在 其 他 情况 
下 ， 如 求 AFR PF 的 值 ， 产 生 条 件 码 的 值 会 比较 复杂 。 通 常 ， 为 一 条 给 定 的 源 指 令 计 算 所 有 的 
条 件 码 要 花费 许多 目标 指令 ， 经 常 比 仿真 剩余 的 指令 还 要 多 ， 并 且 它 会 使 仿真 慢 得 多 。 

然而 ， 结果 是 尽管 条 件 码 的 值 经 常 被 设置 ， 但 是 它们 却 很 少 被 使 用 。 为 了 使 条 件 码 的 仿真 更 
有 效率 ， 一 种 常见 的 技术 是 执行 惰性 计算 〈]lazy evaluation) ， 它 保存 设置 条 件 码 的 操作 数 和 操作 
而 不 是 条 件 码 设置 本 身 (Hohensee, Myszewski 和 Reese 1996; Hookway 和 Herdeg 1997 ) 。 这 使 
得 仅 在 需要 的 时 候 才 生成 所 需要 的 条 件 码 。 例 如 ， 可 以 维护 一 张 惰性 条 件 码 表 ， 它 对 每 个 条 件 码 
位 建立 一 个 表 项 。 这 个 表 项 包含 最 近 修 改 这 个 条 件 码 位 的 指令 的 操作 码 、 它 的 操作 数 和 它 的 结 
果 。 不 过 ， 并 不 产生 条 件 码 本 身 。 于 是 ， 如 果 随 后 的 指令 ， 如 一 个 条 件 分 支 ， 需要 使 用 一 个 或 多 
个 的 条 件 码 位 ， 就 会 访问 条 件 码 表 并 产生 所 需 的 条 件 码 。 

例如 ，IA-32 add 指令 修改 所 有 的 条 件 码 位 。 如 果 在 两 个 含有 值 2 和 3 的 寄存 器 上 执行 add 操 
E, 那么 在 指令 完成 后 ， 表 中 所 有 的 表 项 将 包含 : add: 2; 3: 5。 接 着 ， 如 果 随 后 的 指令 需要 测 
ASF (符号 位 ) ， 就 会 查询 表 中 的 SF RM, BRM (5) 用 来 产生 符号 (0)。 因 为 许多 指令 修 
改 所 有 的 条 件 码 位 或 者 位 的 某 些 子 集 总 是 被 一 起 修改 ， 所 以 可 以 使 用 各 种 各 样 的 技巧 来 减少 条 
件 码 表 中 表 项 的 数目 和 表 更 新 的 次 数 ， 从 而 对 通常 情况 进行 优化 。 

在 二 进 制 翻译 期 间 ， 翻 译 器 可 以 分 析 指 令 序 列 以 决定 隐 式 设置 条 件 码 是 否 被 真正 使 用 。 例 
如 ， 在 图 2-35 中 有 两 条 连续 的 add 指令 后 面 跟 了 一 条 jmp。 在 这 个 例子 中 ， 没 有 使 用 第 一 条 add 
指令 设置 的 条 件 码 ， 因 而 不 必 产 生 这 些 条 件 码 。 数 据 流 分 析 可 以 作为 整个 优化 过 程 的 一 部 分 来 
执行 (4.4 节 ) 。 还 可 能 存在 一 些 并 不 知道 是 否 需要 条 件 码 的 情况 ， 在 这 些 情况 下 就 可 以 使 用 前 
面 描述 的 惰性 计算 。 同 样 ， 为 了 支持 有 效 的 惰性 计算 ， 为 保存 条 件 码 信息 而 保留 目标 寄存 器 会 是 
有 利 的 ， 至 少 对 通常 情况 来 说 是 这 样 的 。 
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回 到 图 2-35 中 的 例子 ， 当 jmp 被 翻译 的 时 候 ， 可 能 不 知道 是 否 会 需要 被 第 二 条 add HOW 
置 的 条 件 码 。 例 如 ，jmp 指令 和 它 的 目的 地 (在 labell ) 可 能 被 分 别 翻译 而 在 两 个 不 同 的 翻译 块 
中 。 这 里 ， 寄 存 器 (125-127) 被 用 作 惰 性 条 件 码 计算 ， 操 作 数 的 值 和 操作 码 信息 被 保存 在 寄存 
器 中 。 在 这 个 例子 里 ， 位 于 jmp 目的 地 址 的 代码 实际 上 在 测试 条 件 码 。 因 此 ， 为 了 设置 ZF 条 件 
码 标记 ， 有 一 个 到 条 件 码 仿真 例 程 genZF 的 分 支 。genZF 例 程 基于 操作 码 (add) 执行 多 路 跳 转 ， 
然后 求 出 ZF 条 件 码 的 值 。 


add] %ebx,0(%eax) 
~ add %ecx,%ebx 


jmp label1 


label11: 
jz target 





a) Intel IA-32 代码 序列 


IA-32 to 
PowerPC 
register mappings 


r4o %eax 
r5 © %ebx 
r6 © %ecx 


r16 scratch register used by emulation code 
condition code operand 1 ;registers 
condition code operand 2 used for - 
condition code operation ; lazy condition code emulation 
jump table base address 


"sub": 


"add": ` 


r16,0Cr4) 
r25,r16 
r26,r5 
r27,"add1" 
r5,r5,r16 
r25,r6 
r26,r5 
r27,"add" 
r6,r6,r5 


label1 


genZF 
cr0, target 


r29,r28,r27 
r29 


r24,r25,r26 


;perform memory load for add] 


;Save operands 


; and opcode for 
; lazy condition code emulation 
;finish add1 

;Save operands 

; and opcode for 

; lazy condition code emulation 
stranslation of add 


;branch and link to evaluate genZF code 
sbranch on condition flag 


;add "opcode" to jump table base address 
;copy to counter register 
;branch via jump table 


;perform PowerPC add, set cr0 
sreturn 





b) 使 用 惰性 条 件 码 计算 的 PowerPC BE 
图 2-35 带 有 二 进 制 翻译 的 IA-32 条 件 码 的 惰性 计算 
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然而 还 有 一 个 问题 ， 因 为 在 仿真 的 过 程 中 可 能 会 发 生 陷阱 ， 并 且 精 确 的 ( 源 ) 状态 ， 包 括 
所 有 的 条 件 码 ， 必 须 在 那 一 点 被 具体 化 。 在 前 述 的 例子 中 ， 当 第 一 个 add 指令 从 内 存 中 加 载 操 作 
数 时 ,会 引起 内 存 保 护 故障 。 如 果 发 生 这 种 情况 ， 条件 码 (或 者 惰性 等 价 物 ) 必须 是 可 用 的 。 
一 般 地 ， 对 于 任何 会 潜在 发 生 陷 阱 的 指令 ， 在 陷阱 发 生 时 必须 有 一 些 方式 来 产生 条 件 码 ， 尽 管 这 
种 情况 下 性 能 通常 不 是 问题 。4. 5. 2 节 讨 论 在 陷阱 发 生 时 具体 化 正确 条 件 码 状态 的 方法 ， 其 中 陷 
阱 和 中 断 仿 真 的 一 般 问 题 将 在 优化 代码 的 上 下 文中 描述 。 

最 后 ， 即 使 目标 ISA 使 用 条 件 码 ， 它 们 可 能 不 会 完全 与 源 ISA 条 件 码 兼 容 (May 1987) 。 例 
如 ，SPARC ISA 有 条 件 码 N、C、Z、V， 这 与 IA-32 HY SF, CF. ZF. OF 是 等 价 的 ,但 是 它 没有 
与 AF 和 PF 对 应 的 条 件 码 。 因 此 ， 对 于 某 些 条 件 码 仿真 被 简化 了 【倘若 目标 条 件 码 寄 存 器 能 容 
易 地 被 读 / 写 ) ， 但 是 对 于 其 他 条 件 码 仍 需要 比较 昂贵 的 仿真 。 


2.8.3 ”数据 格式 和 运算 


仿真 大 多 数 数据 转换 指令 (如 加 法 、 逻 辑 、 移 位 ) 是 相当 简单 的 。 这 些 问题 被 简化 的 原因 
是 由 于 在 这 些 年 里 数据 格式 和 运算 变 得 差不多 标准 化 了 。 对 于 整数 ，2 的 补 码 表示 已 经 得 到 普遍 
的 认可 ; 对 于 浮 点 数 ，IEEE 标准 被 普遍 实现 。 

如 果 源 和 目标 ISA 实现 了 2 的 补 码 运算 ,算术 操作 的 仿真 式 就 容易 做 了 ， 尤 其 是 当 两 种 ISA 
都 支持 同样 的 数据 宽度 时 。 大 多 数 ISA 提供 了 一 个 基本 的 逻 辑 和 移 位 指令 的 集合 ， 在 源 ISA 中 
可 以 被 用 来 组 成 不 同 的 移 位 和 逻辑 指令 的 变化 。 

尽管 IEEE 浮 点 格式 被 普遍 使 用 ,但 是 浮 点 运算 在 不 同 实现 上 的 执行 方式 还 是 有 一 些 不 同 。 
例如 ，IA-32 使 用 80 位 的 中 间 结 果 ， 不 像 大 多 数 其 他 的 ISA。 这 意味 着 IA-32 中 间 结 果 的 精度 同 
使 用 64 位 中 间 结 果 的 ISA 不 同 。 对 一 个 非 IA-32 目标 ISA 来 说 ， 执 行 IA-32 仿真 并 且 获 得 同样 的 
结果 是 可 能 的 ， 但 却 相当 麻烦 。 作 为 另 一 个 运算 不 同 的 例子 ，PowerPC ISA 提供 了 组 合 的 乘 -加 
指令 ， 它 不 总 是 能 通过 使 用 由 一 条 乘法 指令 后 跟 一 条 加 法 指令 组 成 的 显而易见 且 简单 的 序列 来 
精确 地 仿真 ， 因 为 习 -加 的 中 间 精 度 可 能 高 于 EEE 标准 所 要 求 的 。 这 再 一 次 说 明了 仿真 是 可 能 
的 但 不 方便 。 

经 常 存 在 源 ISA 需要 一 种 在 目标 ISA 中 没有 的 功能 。 例 如 ， 一 些 指令 集 提 供 整 数 除法 指令 ， 
而 其 他 提供 更 基本 的 移 位 /减法 “除法 步骤 ”指令 或 者 转化 并 使 用 浮 点 除法 器 的 指令 。 另 一 个 例 
子 是 ， 某 些 ISA 实现 了 大 量 的 寻 址 方式 ， 而 其 他 的 JSA 则 具有 较 小 的 简单 寻 址 方式 集合 。 越 简单 
的 ISA 总 是 有 足够 的 基本 指令 来 实现 其 他 ISA 中 越 复 杂 的 指令 。 例 如 ， 一 个 自动 增 量 加 载 可 以 
通过 一 条 加 法 指令 和 一 条 加 载 指令 的 组 合 来 完成 。 

最 后 ， 立 即 数 会 引起 轻微 的 仿真 困难 ， 因 为 不 同 的 ISA 经 常 有 不 同 的 立即 数 长 度 。 将 较 短 的 
立即 数 映 射 到 较 长 的 明显 比 将 长 立即 数 映 射 到 短 的 立即 域 容易 。 然 而 ， 所 有 的 ISA 都 有 一 些 方 
法 使 用 少数 指令 来 构造 标 淮 长 度 的 常数 ， 因 此 所 有 的 立即 数 都 可 以 被 处 理 ， 而 不 关系 其 长 度 。 


2.8.4 ”内 存 地 址 解析 


通常 ， 不 同 的 ISA 能 够 访问 不 同 大 小 的 数据 项 。 例如， 一 种 ISA 可 以 支持 字 节 、 半 字 (16 
fi) 和 全 字 的 加 载 和 存储 ， 而 另 一 种 仅仅 可 以 支持 字 节 和 字 。 一 个 不 太 强 大 的 ISA 中 的 多 条 指 
令 总 是 可 以 被 用 来 仿真 一 个 比较 强大 的 ISA 上 的 一 条 单独 的 访 存 指令 。 

目前 ， 大 多 数 ISA 给 内 存 按 单个 字 节 分 配 地 址 。 然 而 ， 如 果 一 个 目标 ISA 不 是 这 样 ， 那 么 在 
带 有 字 解 析 的 机 器 上 仿真 一 个 字 节 -解析 的 ISA 时 ， 当 执行 访 存 时 就 需要 移出 〈 并 保存 ) 低 字 
节 地 址 位 ， 然 后 使 用 保存 的 字 节 偏 移 位 来 选择 特定 的 被 访问 的 字 节 (或 半 字 )。 执 行 一 个 在 大 小 
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小 于 一 个 全 字 的 数据 项 的 存储 需要 首先 执行 一 个 字 加 载 ， 在 字 中 插 人 数据 项 〈 通 过 移 位 和 掩 码 
操作 ) ， 然 后 执行 一 个 字 存 储 。 在 按 字 节 寻 址 的 目标 上 仿真 按 字 寻 址 的 ISA 的 相反 问题 是 非常 简 
单 的 ; 这 是 一 个 在 比较 强大 的 ISA 上 仿真 一 个 不 太 强大 的 ISA 的 问题 。 


2.8.5 内 存 数据 对 齐 


某 些 ISA 在 “自然 ”边界 上 对 齐 内 存 数据 而 有 些 不 是 。 即 要 执行 一 个 字 的 访问 要 求 地 址 的 
低 2 位 必须 为 00 ， 而 一 个 半 字 的 访问 要 求 地 址 的 最 低位 必须 为 0。 如 果 一 个 ISA 不 要 求 地 址 在 自 
然 地 址 上 ， 那 就 是 说 它 支持 “不 对 齐 的 ”数据 。 一 个 保守 的 方法 就 是 将 字 或 半 字 的 访问 分 割 成 
字 节 访问 。 通 常 如 果 一 个 ISA 不 直接 支持 不 对 齐 的 数据 ， 然 而 它 有 一 些 附 助 的 指令 来 简化 这 个 
过 程 并 且 这 些 是 可 以 被 采用 的 。 典 型 地 ， 作 为 一 个 安全 网 ，ISA 也 会 指定 一 个 陷阱 ， 它 在 一 条 指 
令 试图 用 一 个 不 对 齐 的 地 址 来 访问 时 发 生 。 

目标 代码 的 运行 时 分 析 可 以 通过 用 对 齐 的 情况 代替 字 访 问 来 帮助 减少 代码 扩张 。 在 某 些 情 
况 下 ， 使 用 运行 时 剖析 信息 来 减少 仿真 这 种 访问 的 动态 开销 可 能 是 有 效 的 。 这 将 在 4. 6. 4 节 中 进 
一 步 讨论 。 


2.8.6 字 节 序 


某 些 ISA 将 一 个 字 内 的 字 节 排序 使 得 最 高 字 节 是 字 节 0 (而 在 一 个 32 位 字 中 ， 最 低 的 是 字 
节 3)。 这 被 称 为 大 尾 (big-endian) 字 节 序 (Cohen 1981), 。 其 他 ISA -hÆ (little-endian) = 
节 序 排列 字 节 ， 它 将 最 低 字 节 编 址 为 0 而 最 高 字 节 为 3。 例 如 ， 在 大 尾 序 机 器 上 字符 串 “JOHN” 
被 存储 为 JOHN， 而 在 小 尾 序 机 器 上 则 被 存储 为 NHOJ。 在 这 两 种 情况 下 ， 如 果 按 照 序列 0、1、 
2、3 RST, BASH RHR IL O, H, N 的 次 序 来 访问 。 

按照 与 源 ISA 假定 的 相同 的 字 节 序 来 维护 客户 机 数据 映像 是 常见 的 。 因 此 ， 在 一 个 小 尾 序 
目标 ISA 上 仿真 一 个 大 尾 序 源 ISA (或 者 相反 )， 仿真 代码 可 能 在 访问 客户 机 内 存 区 中 的 字 节 
(或 半 字 ) 时 修改 地 址 。 例 如 ， 考 虑 一 个 取 字 节 指 令 。 为 了 获得 正确 的 数据 ， 可 以 对 地 址 的 低 两 
位 求 补 ( 即 ， 将 字 节 地 址 00 转化 为 11，01 转化 为 10 等 ) 。 一 个 更 加 复杂 的 例子 是 ， 如 果 使 用 不 
对 齐 的 字 地 址 ， 那 么 字 节 可 以 单独 地 从 地 址 中 加 载 ， 这 个 地 址 是 通过 顺序 排列 各 个 字 节 地 址 并 
在 访问 内 存 前 对 地 址 求 补 而 得 到 的 。 也 就 是 说 ， 如 果 源 ISA 指定 地 址 xxx01001， 那 么 被 加 载 的 
字 节 是 在 位 置 xxx01010、xxx01001、xxx01000 、xxx01111。 或 者 作为 选择 ， 一 对 取 字 指令 与 移 位 
和 逻辑 指令 相 结合 可 以 用 来 将 正确 的 数据 收集 到 目标 寄存 器 中 。 在 任何 情况 下 ， 这 遂 常 都 是 一 
个 难以 避免 的 笨拙 且 耗 时 的 过 程 。 某 些 ISA 对 两 种 字 节 序 都 支持 (通过 一 个 模式 位 )， 而 具有 这 
种 性 质 的 目标 ISA 将 明显 地 简化 仿真 过 程 。 

最 后 ， 注 意 字 节 序 问题 可 以 扩展 到 主机 操作 系统 调用 中 。 也 就 是 说 ， 被 主机 操作 系统 访问 的 
客户 机 数据 也 不 得 不 被 转化 为 合适 的 字 节 序 。 这 可 以 在 支持 操作 系统 调用 仿真 的 “外 套 ” 或 
“包装 器 ”代码 中 完成 ( 见 3.7 节 )。 


2.8.7 和 寻 址 结构 


内 存 寻 址 结构 是 ISA 的 一 个 非常 重要 的 部 分 ， 并 且 当 仿真 完整 地 应 用 时 它 会 引起 许多 难题 。 
源 和 目标 ISA 的 地 址 空间 大 小 可 能 不 同 ， 并且 /或 者 它们 的 页 大 小 可 能 不 同 或 者 它们 的 特权 级 别 
不 同 。 这 些 地 址 空间 问题 是 相当 复杂 的 ， 为 了 提供 好 的 解决 方案 ， 必 须 将 虚拟 机 结构 作为 一 个 整 
体 来 考虑 ; 就 是 说 ， 它 不 单 是 指令 仿真 的 问题 。 因 为 虚拟 机 作为 一 个 整体 提供 了 合适 的 地 址 空间 
环境 ， 这 个 问题 被 推迟 到 第 3 章 ， 在 那里 将 讨论 特定 的 虚拟 机 实现 。 
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2.9 案例 研究 ; Shade 和 模拟 过 程 中 的 仿真 角色 


模拟 是 计算 机 系统 设计 的 一 个 关键 部 分 。 模 拟 器 用 于 研究 存储 层次 的 性 能 和 超标 量 微 结 构 
的 内 部 行为 。 它 们 对 开发 编译 器 优化 和 调试 也 是 有 用 的 。 模 拟 器 典型 地 运行 在 基准 测试 程序 或 
内 核 上 ， 并 且 作 为 模拟 过 程 的 一 部 分 仿真 这 些 程序 。 即 一 个 模拟 器 包括 仿真 ， 但 它 做 得 更 多 。 在 
模拟 中 ， 其 目标 是 研究 完成 计算 的 过 程 ， 而 不 是 计算 本 身 ; 就 是 说 ， 人 们 很 少 对 模拟 程序 产生 的 
实际 输出 感 兴趣 (尤其 是 当 这 个 程序 正 被 用 完全 一 样 的 输入 数据 模拟 第 100 次 时 !) 。 除 了 仿真 
一 个 程序 ， 模 拟 器 可 以 对 处 理 器 或 存储 系统 的 内 部 运行 方式 建 模 。 它 可 以 直接 追踪 硬件 特性 的 
操作 ， 或 者 可 以 产生 指令 或 内 存 地 址 踪迹 ， 以 便 其 他 模拟 工具 的 进一步 评估 。 为 了 收集 过 程 相关 
的 信息 ， 经 常 要 牺牲 性 能 ， 如 分 支 误 预 测 精度 或 者 在 特殊 周期 内 发 射 的 指令 数目 。 

Shade 是 为 高 性 能 模拟 而 开发 的 模拟 工具 (Cmelik 和 Keppel 1994, 1996); 因此 ， 它 包含 一 
个 精密 复杂 的 仿真 器 ， 成 为 灵活 且 可 扩展 的 模拟 的 基础 。 它 提供 了 一 组 可 以 被 链接 到 仿真 器 的 
函数 。 一 些 函 数 作为 Shade 工具 集 的 一 部 分 被 提供 ， 用 户 也 可 以 写 额 外 的 函数 。 [77] 





图 2-36 Shade 中 主要 的 数据 结构 。 源 内 存 映 像 (VMEM)， 源 寄存 器 状态 (VS), 
用 于 保存 翻译 指令 的 cache (TC) ， 和 映射 源 到 目标 PC 的 表 (TLB) 


Shade 首先 将 被 模拟 的 ISA (我 们 称 之 为 源 ISAS) 翻译 成 目标 指令 序列 。 通 常 ， 基 本 块 大 小 
的 单元 被 翻译 。 翻 译 代 码 不 仅 执行 仿真 ， 而 且 通 过 幅 和 人 在 翻译 代码 中 的 函数 调用 产生 模拟 踪迹 
数据 。 因 为 我 们 主要 对 仿真 感 兴趣 ， 所 以 跳 过 了 踪迹 生成 的 细节 ， 但 是 读者 可 以 参考 早期 被 引用 
的 描述 Shade 的 优秀 文章 。 

图 2-36 给 出 了 Shade 的 重要 元 素 。 源 ISA 内 存 映像 被 保存 在 一 个 大 的 VMEM 数组 中 。 寄 存 器 状 
AS, 包括 条 件 码 和 控制 寄存 器 被 保存 在 VS 表 中 。 踪 迹 cache (TC) 是 保存 被 翻译 的 目标 指令 块 的 代 
码 cache 结构 。 最 后 ， 源 PC 值 和 目标 PC 值 之 问 的 映射 被 维护 于 变换 旁 查 缓冲 区 中 ,或 者 TLBS。 

为 了 加 速 仿真 ， 原 程序 计数 器 (VPC) 和 源 内 存 映像 (VMEM) 基 址 被 永久 地 映射 到 目标 
寄存 器 。 一 个 指向 TLB 基 址 的 指针 也 被 永久 地 映射 到 一 个 目标 寄存 器 。 当 执行 一 个 翻译 代码 块 
时 ， 在 块 中 被 使 用 的 源 寄存 器 值 CREF VS 中 ) 被 临时 复制 到 目标 寄存 器 。 当 它们 被 计算 出 以 [78] 
后 ， 结 果 寄 存 器 的 值 被 复制 回 VS。 


日 ”我 们 所 称 的 源 和 目标 在 Shade 文档 中 被 称 为 目标 和 主机 。 
O RT TLB 不 应 与 用 在 许多 处 理 器 中 的 变换 旁 查 缓冲 区 混 清 ， 后 者 用 于 高 速 绥 存 虚 地 址 变换 信息 。 
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TC 中 的 翻译 块 可 以 被 链 在 一 起 以 避免 TLB 查找 。 翻 译 cache 以 一 种 简单 的 方式 被 管理 : 翻译 
随 着 其 产生 而 线性 地 填充 TC。 当 TC 变 满 时 ， 它 只 是 被 清除 ， 然 后 翻译 又 开始 填充 TC。 这 种 方式 
无 疑 很 简单 一 一 它 避 免 不 得 不 “ 解 开 ”翻译 块 ， 并 且 TC 通常 是 足够 大 的 ， 不 会 显著 地 降低 性 能 。 

图 2-37 说 明了 Shade TLB 的 结构 。 它 是 一 个 二 维 数组 ， 其 中 源 PC 被 散 列 到 行 ， 而 每 行 包含 
na 个 < 源 ， 目 标 > 对 。 查 找 算法 线性 地 扫描 该 行 直 到 有 一 个 匹配 〈 并 且 找 到 了 目标 PC) 或 者 直 
到 它 命中 了 数组 的 末端 。 如 果 它 命中 了 末端 ， 就 认为 没有 翻译 并 且 形 成 一 个 。 仿 真 代码 的 内 部 循 
环 检查 列表 中 的 第 一 个 翻译 。 如 果 命 中 ， 它 继续 进行 ; 否则， 它 调 用 一 个 做 线性 搜索 的 例 程 。 这 
个 搜索 例 程 就 在 第 一 个 位 置 放置 一 个 匹配 的 表 项 ， 因 此 最 近 使 用 的 总 是 第 一 个 被 检查 的 。 如 果 
全 部 n 个 表 项 都 满 了 ， 那 么 一 个 新 的 表 项 推出 最 右 端的 表 项 并 丢弃 。 这 意味 着 在 TC 中 可 能 会 有 
一 些 “孤儿 ”翻译 ， 并 且 稍 后 也 会 加 入 一 些 元 余 的 重 翻译 到 TC 中 。 然 而 ，TC 偶尔 的 清除 操作 
也 会 清除 孤儿 。 最 后 ， 进 一 步 的 优化 将 TLB 的 每 行 对 齐 到 高 速 缓存 抉 的 边界 上 ， 这 使 得 如 果 在 
初始 查找 过 程 中 有 人 缺失 ， 则 剩 下 的 表 项 将 在 维护 初始 缺失 时 被 载 人 到 cache 中 。 


目标 PC 





图 2-37 Shade TLB 的 结构 


2. 10 总 结 : 性 能 折 中 


图 2-38 总 结 了 我 们 所 讨论 的 所 有 仿真 方法 ， 我 们 现在 比较 一 下 它们 的 特点 。 作 为 比较 的 标 
准 ， 我 们 考虑 启动 时 间 、 内 存 需 求 、 稳 态 性 能 和 代码 的 可 移植 性 。 我 们 提供 定性 的 性 能 特征 ; 对 
解释 器 性 能 的 更 为 定量 的 评价 由 Romer 等 〈1996) 完成 。 

这 一 标准 的 相对 重要 性 依赖 于 正 被 实现 的 VM。 例 如 ， 内 存 需 求 可 能 在 嵌 人 式 应 用 中 的 虚拟 
机 中 重要 ， 但 在 服务 器 应 用 中 却 不 是 。 在 高 级 语言 虚拟 机 中 可 移植 性 可 能 重要 ， 但 在 协同 设计 虚 
拟 机 中 却 不 是 。 





源 代码 源 代码 解释 器 例 源 代码 解释 器 例 程 








b) 译 码 _ 分 派 解释 。) 间接 线索 解释 


图 2-38 仿真 方法 总 结 
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中 间 代码 
_ 解释 器 例 程 二 进 制 翻译 目标 代码 

源 代码 | a 源 代 码 I 
| | | 4 | | | 
| | i] | | 
E | D | E 
| -> 预 译 码 器 t-a ] | | ”| 二 进 制 翻译 器 | J 
| | | | | | - 
| | | | rt | | | 
| | ii 1 | 
i Í | | | 
Pe o | 
i | bod 
ee | 

d) 预 译 码 和 直接 线索 解 e) 二 进 制 翻译 

图 2-38 ( 续 ) 
译 码 -分 派 解 释 


内 存 需求 : 低 一 一 在 目标 ISA 中 对 每 条 指令 类 型 有 一 个 解释 器 例 程 。 

启动 性 能 : 快 一 一 实质 上 有 零 启动 时 间 ， 因 为 没有 对 源 二 进 制 代码 预 处 理 或 者 翻译 的 需要 。 

稳 态 性 能 : 慢 一 一 一 条 源 指令 在 每 次 被 仿真 时 都 必须 被 解析 。 此 外 ， 源 代码 必须 通过 数据 
cache 被 取得 ， 这 给 cache 带 来 了 很 多 压力 (并 且 导 致 了 潜在 的 性 能 损失 ) 。 最 后 ， 这 种 方法 会 引 
起 大 量 的 控制 转移 (分支 ) 。 

代码 可 移植 性 : 好 一 一 如 果 解 释 器 用 高 级 语言 编写 ， 那 么 它 非常 易于 移植 。 

间接 线索 解释 

ARR: 低 一 一 比 译 码 - 分派 解释 需要 更 多 的 内 存 ， 因 为 在 每 个 解释 器 例 程 中 必须 包含 
分 派 代码 序列 。 额 外 内 存 的 数量 依赖 于 译 码 的 复杂 性 ; 对 于 RISC ISA 它 会 相对 低 ， 而 对 于 CISC 
它 要 高 得 多 。 通 过 混合 实现 可 以 减轻 内 存 代价 。 

启动 性 能 : 快 一 一 和 译 码 - 分派 解释 器 一 样 ， 实 质 上 有 有 零 启 动 时 间 ; 没有 预 处 理 的 需求 。 

稳 态 性 能 : 慢 一 一 这 会 比 译 码 - 分 派 稍微 好 一 些 ， 因 为 消除 了 一 些 分 支 指令 。 和 译 码 - DIK 
解释 器 一 样 ， 有 高 数据 cache 利用 率 。 

代码 可 移植 性 : 好 一 一 解释 器 代码 和 译 码 -分 派 解释 一 样 易于 移植 。 

带 有 预 译 码 的 直接 线索 解释 

内 存 需求 : 高 一 一 预 译 码 内 存 映 像 的 大 小 与 初始 源 代码 映像 是 成 比例 的 (并 且 可 能 大 一 
些 ) 。 如 果 中 间 形 式 被 缓存 ， 从 cache 中 删除 很 少 使 用 的 预 译 码 指 令 块 ， 那 么 内 存 需求 可 以 稍微 
降低 。 

启动 性 能 : 慢 一 一 源 内 存 映像 必须 首先 被 解释 ， 以 便 发 现 控制 流 。 同 样 ， 产 生 被 译 码 的 中 间 
形式 也 要 消耗 时 间 。 

稳 态 性 能 : 中 等 的 一 一 这 要 比 间接 线索 化 好 ， 因 为 每 次 执行 各 个 指令 时 不 必 对 它们 解析 
(和 译 码 ) 。 如 果 预 译 码 形式 包含 解释 程序 的 目标 地 址 ， 那 么 分 派 表 查找 就 被 消除 。 因 为 预 译 码 
指令 仍然 被 解释 器 代码 当 作 数据 来 处 理 ， 所 以 数据 cache 利用 率 高 。 

代码 可 移植 性 : 中 等 的 一 一 如 果 预 译 码 版 本 包含 解释 器 例 程 的 具体 位 置 ， 那 么 解释 器 就 变 
得 依赖 于 实现 了 。 支 持 发 现 标 号 地 址 的 编译 器 可 以 减少 这 个 缺点 。 

二 进 制 翻译 

内 存 需 求 : 高 一 一 预 译 码 内 存 映像 的 大 小 与 初始 源 内 存 映像 是 成 比例 的 。 如 果 翻 译 代码 块 
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被 缓存 ， 可 以 降低 预 译 码 的 内 存 需求 。 
启动 性 能 : 非常 慢 一 一 源 内 存 映 像 必 须 首 先 被 解释 ， 以 便 发 现 控制 流 。 然 后 必须 产生 翻译 二 
进 制 代码 。 
稳 态 性 能 : 快 一 一 翻译 二 进 制 代码 直接 在 便 件 上 执行 。 如 果 翻 译 块 被 直接 链接 起 来 ， 性 能 会 
提高 得 甚至 更 多 。 此 外 ， 由 于 翻译 代码 被 取 到 指令 cache 中 ， 这 减轻 了 对 数据 cache 的 压力 。 
代码 可 移植 性 : 差 一 一 代码 被 翻译 成 特定 的 目标 ISA。 对 每 个 目标 ISA 必须 写 一 个 新 的 翻译 
器 〈 或 者 至 少 是 代码 生成 部 分 ) 。 





第 3 章 ， 进程 虚拟 机 


一 个 典型 的 计算 机 用 户 与 大 量 的 程序 协作 ， 这 些 程序 同时 存在 于 由 一 个 或 多 个 处 理 器 、 内 存 、 
文件 系统 和 许多 外 围 设备 组 成 的 系统 环境 中 。 用 户 通过 使 用 由 库 和 操作 系统 支持 的 接口 来 调用 程序 
并 与 程序 交互 。 可 是 ， 一 个 重要 的 限制 是 用 户 只 能 运行 为 用 户 的 操作 系统 和 处 理 器 指令 集 所 编译 的 
程序 。 虚 拟 机 的 一 个 重要 应 用 就 是 避 开 这 一 限制 ， 人 允许 用 户 运 行为 其 他 系统 所 编译 的 程序 。 我 们 将 
会 看 到 许多 虚拟 机 的 体系 结构 能 提供 这 种 能 力 ， 但 是 从 用 户 角 度 看 ， 最 简单 的 虚拟 机 方式 就 是 在 程 
序 或 进程 级 提供 虚拟 环境 ， 本 章 将 描述 这 类 虚拟 机 。 通 过 使 用 进程 虚拟 机 ， 为 一 台 不 同 于 用 户主 机 
系统 的 计算 机 而 开发 的 客户 机 程序 可 以 按 和 主机 系统 上 所 有 其 他 程序 相同 的 方式 来 安装 和 使 用 ; 用 
户 及 其 他 程序 和 客户 机 程序 的 交互 与 它们 和 本 地 主机 程序 的 交互 方式 是 一 样 的 。 

计算 机 程序 被 编译 、 分 发 和 存储 为 可 执行 的 二 进 制 文件 ， 这 些 二 进 制 文 件 遵循 特定 的 应 用 
二 进 制 接 口 ， 即 ABI， 其 中 包括 硬件 指令 集 和 操作 系统 的 特征 。 例 如 ， 一 个 广泛 使 用 的 ABI 是 为 
了 在 支持 mtel IA-32 ISA 的 处 理 器 和 微软 Windows 操作 系统 上 执行 而 设计 的 。 几 年 以 前 ，Intel FF 
发 了 一 个 新 的 64 位 ISA， 现 在 称 之 为 IPF， 它 实现 于 安 腾 处 理 器 家 族 中 。 现 存 的 IA-32 应 用 程序 
不 能 直接 在 安 腾 平 台 上 运行 ， 即 便 Windows 操作 系统 已 经 被 移植 到 安 腾 平 台 上 。 为 了 使 用 户 可 
以 在 安 腾 平台 上 运行 大 量 的 现存 IA-32/Windows 应 用 ，Intel 人 开发 了 一 个 虚拟 的 IA-32/Windows 
环境 。 所 得 的 进程 虚拟 机 IA-32 EL (执行 层 ，execution layer) 使 IA-32 程序 在 安 腾 用 户 看 来 就 好 
像 在 本 地 的 IA-32 平台 上 一 样 (Baraz 等 ，2003)。IA-32 EL 进程 虚拟 机 的 另 一 个 版 本 具有 不 同 的 
操作 系统 接口 ， 它 支持 IA-32/Linux 应 用 。 


| 主机 进程 || 客户 机 进程 
| 客户 机 进程 ， | \ [| 客户 机 进程 | | 
+ \\ | 主机 进程 
\ j | 
、、 运 行 时 \ 运行 时 / 
í Formats 了 E. = 新 A 
ER SE ae ð ae DRN. SETET ANN: # 
4 b 4 
主机 OS 
a ¥ ka d 
文件 共享 
ay 网 络 通信 


图 3-1 一 个 客户 机 进程 通过 运行 时 软件 形式 的 进程 虚拟 机 的 支持 与 主机 进程 交互 
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图 3-1 描述 了 一 个 典型 的 进程 虚拟 机 环境 。 如 图 所 示 ， 运 行 时 (runtime) 软件 本 质 上 封装 了 
一 个 单独 的 客户 机 进程 ， 使 得 这 个 客户 机 进程 与 本 地 主机 进程 有 相同 的 外 在 表现 。 从 客户 机 进 
程 的 角度 ， 其 他 所 有 的 进程 看 起 来 都 符合 其 所 在 的 世界 观 。 因 此 ， 客 户 机 进程 可 以 按照 主机 进程 
之 间 的 交互 方式 和 本 地 主机 进程 交互 。 此 外 ， 客 户 机 进程 可 以 与 其 他 客户 机 进程 交互 ， 就 好 像 它 
们 运行 在 实际 机 器 上 一 样 。 
在 本 章 中 ， 我 们 以 近乎 自 顶 向 下 的 方式 讨论 进程 虚拟 机 的 实现 。 下 一 节 讨 论 进 程 虚拟 机 的 
整体 结构 。 然 后 用 一 节 讨 论 兼 容 性 问题 ， 接 下 来 分 节 介绍 进程 虚拟 机 的 每 个 主要 方面 ， 包 括 客户 
机 状态 到 主机 状态 的 映射 ， 以 及 内 存 寻 址 结构 、 指 令 、 例 外 和 操作 系统 调用 的 仿真 。 我 们 同样 用 
一 节 讨 论 和 进程 虚拟 机 实现 有 关 的 代码 cache 管理 技术 。 然 后 用 一 节 说 明 进 程 虚拟 机 到 一 个 主机 
环境 的 集成 ， 包 括 进 程 虚 拟 机 的 加 载 和 初始 化 。 最 后 以 Digital FX! 32 系统 的 案例 研究 来 结束 本 
章 ， 它 是 支持 IA-32/Windows ABI 的 虚拟 机 。 


3.1 虚拟 机 实现 
进程 虚拟 机 的 主要 计算 模块 和 数据 结构 如 图 3-2 所 示 。 其 中 主要 模块 执行 如 下 的 功能 : 







客户 机 内 存 映 像 


= | foal Raat 
代码 cache 管理 器 


OS 调用 仿真 器 aS 异常 仿真 < 一 >| 异常 索引 表 


主机 操作 系统 





‘| 剖析 数据 


初始 信号; 






图 3-2 进程 虚拟 机 的 实现 


加 载 器 将 客户 机 代码 和 数据 写 人 到 用 于 保存 客户 机 内 存 映像 的 内 存 区 中 ， 并 且 加 载运 行 
时 软件 的 代码 。 尽 管内 存 映 像 包含 客户 机 的 应 用 程序 代码 和 数据 ， 但 是 对 运行 时 软件 而 
言 这 些 全 是 数据 ， 因 为 源 代码 并 不 直接 执行 。 相 反 地 ， 源 代码 被 用 作 解 释 例 程 和 /或 二 进 
制 翻译 例 程 的 输入 “数据 ”。 

加 载 器 接着 将 控制 转交 给 初始 化 模块 ， 该 模块 为 代码 cache 和 其 他 表 分 配 在 仿真 期 间 所 需 
的 内 存 空 间 。 初 始 化 过 程 也 调用 主机 操作 系统 为 所 有 可 能 发 生 的 陷阱 条 件 (至 少 是 那个 
主机 操作 系统 所 支持 的 信号 ) 建立 信号 处 理 器 。 在 初始 化 之 后 ， 便 开始 仿真 过 程 了 ， 通 
常 以 分 阶段 的 方式 使 用 一 系列 的 仿真 技术 。 
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。 仿真 引擎 使 用 解释 和 /或 二 进 制 翻译 ， 利 用 第 2 章 中 的 基本 方法 来 仿真 客户 机 指令 。 如 果 
使 用 二 进 制 翻译 进行 仿真 ， 那 么 翻译 的 目标 代码 被 保存 于 代码 cache 中 。 在 仿真 过 程 中 ， 
被 翻译 器 填写 的 代码 cache 是 一 个 可 执行 代码 区 。 如 果 仿 真是 通过 带 有 预 译 码 中 间 形 式 的 
解释 来 执行 的 ， 那 么 预 译 码 指 令 被 存储 在 类 似 的 cache 结构 中 。 

e 由 于 代码 cache 大 小 的 限制 ， 代 码 cache 管理 器 负责 决定 当 产 生 新 的 翻译 时 ， 哪 些 翻译 应 
被 清除 出 cache， 以 便 为 这 些 新 产生 的 翻译 腾 出 空间 。 

° 剖析 数据 库 包含 动态 收集 的 程序 信息 ， 用 于 在 翻译 期 间 指导 优化 。 齐 析 数 据 的 使 用 和 优 
化 方法 将 在 第 4 章 中 详细 描述 。 

。 当 仿 真 继续 进行 而 客户 机 程序 执行 一 个 系统 调用 时 ， 操 作 系 统 调用 仿真 器 将 这 个 系统 调 
用 翻译 为 对 主机 操作 系统 的 一 个 适当 的 调用 (或 多 个 调用 ) ， 然 后 处 理 任何 关联 的 返回 
信息 作为 调用 的 结果 。 

© 运行 时 软件 还 必须 处 理 在 执行 解释 器 指令 或 翻译 的 指令 时 产生 的 陷阱 ， 并 且 必 须 处 理 任 
何 针对 客户 机 进程 的 中 断 。 运 行 时 软件 通过 例外 仿真 器 来 完成 这 些 。 在 某 些 情况 下 ， 当 
仿真 触发 的 一 个 陷阱 导致 将 传递 给 运行 时 软件 一 个 操作 系统 信号 时 ， 例 外 仿真 器 便 接 管 
控制 权 ; 在 其 他 情况 下 ,仿真 例 程 发 现 例 外 条 件 并 跳 转 到 例外 仿真 器 。 运 行 时 软件 例外 
处 理 的 一 个 重要 方面 就 是 当 例 外 条 件 发 生 时 ,产生 正确 且 精 确 的 客户 机 状态 (包括 程序 
计数 器 、 寄 存 器 值 和 陷阱 条 件 ) 。 

e 索引 表 (side tables) ， 即 作为 翻译 过 程 的 一 部 分 而 产生 的 数据 结构 ， 这 些 表 为 运行 时 软 
件 所 用 ， 是 整个 仿真 过 程 的 一 部 分 。 索 引 表 的 一 个 重要 应 用 是 实现 一 个 关于 源 ISA 的 精 
确 例外 模型 。 索 引 表 的 其 他 应 用 将 在 介绍 索引 表 时 再 描述 。 

在 随后 的 各 节 中 ， 将 详细 描述 各 主要 模块 的 设计 ; 不 过 我 们 首先 定义 用 来 讨论 和 推理 进程 

虚拟 机 中 兼容 性 的 框架 。 


3.2 兼容 性 


任何 虚拟 机 实现 中 的 一 个 关键 问题 就 是 兼容 性 ， 即 ， 在 主机 平台 上 仿真 的 客户 机 行为 与 它 
在 本 地 平台 上 的 行为 相 比 所 得 的 精确 性 。 理 想 情况 下 ， 行 为 应 该 是 一 样 的 ; 但 是 正如 稍 后 可 看 到 
的 ， 在 许多 实际 情况 下 ， 对 一 个 有 用 的 进程 虚拟 机 来 说 完全 的 兼容 性 是 没有 必要 的 。 

当 我 们 定义 兼容 性 时 ， 我 们 把 所 有 类 型 的 行为 包含 进来 ， 而 其 中 的 一 个 重要 例外 是 : 我 们 把 单 
纯 地 与 性 能 有 关 的 差异 排除 在 外 。 换 名 话说， 兼容 性 是 功能 的 正确 性 问题 ， 而 不 是 功能 被 执行 得 有 
多 快 。 尽 管 性 能 不 是 兼容 性 定义 的 一 部 分 ， 但 是 在 实现 许多 虚拟 机 时 ， 它 毫 无 疑问 地 是 一 个 重要 的 
考虑 因素 。 实 际 上 ， 兼 容 性 所 达到 的 级 别 有 时 很 大 程度 上 取决 于 人 们 愿意 接受 的 性 能 降低 程度 。 

在 这 一 节 中 ， 我 们 重点 讨论 一 般 的 虚拟 机 兼容 性 ， 尤 其 是 进程 级 (ABI) 兼容 性 。 由 于 侧重 
在 进程 兼容 性 ， 我 们 的 大 部 分 讨论 和 许多 例子 是 进程 兼容 性 和 程序 仿真 方面 的 。 


3.2.1 兼容 性 的 级 别 


纯粹 主义 者 认为 兼容 性 对 所 有 程序 在 所 有 时 间 里 都 需要 100% 的 精确 性 。 对 一 些 系 统 虚 拟 
机 ， 如 协同 设计 虚拟 机 ， 通 常 要 求 严 格 的 ISA 兼容 性 。 可 是 这 种 严格 的 兼容 性 定义 会 排斥 许多 有 
用 的 进程 虚拟 机 实现 。 因 此 ， 为 了 允许 有 条 件 的 兼容 性 ， 我 们 进一步 细 化 兼容 性 的 概念 。 

我 们 称 严 格 形式 的 兼容 性 为 内 在 兼容 性 (intrinsic compatibility ) 。 有 有 时， 完全 透明 (com- 
plete transparency) 这 个 术语 被 应 用 于 具有 内 在 兼容 性 的 虚拟 机 中 (Bruening 2004), HEATER 
容 性 是 完全 以 虚拟 机 的 性 质 为 基础 的 。 内 在 兼容 性 对 于 所 有 的 客户 机 软件 和 所 有 可 能 的 输入 数 
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据 都 是 有 效 的 。 这 包括 想 要 “打破 ”兼容 性 的 阴险 的 程序 员 所 编写 的 汇编 语言 程序 。 当 使 用 内 
在 兼容 的 虚拟 机 时 ， 用 户 要 确保 任何 软件 按 它们 在 本 地 平台 上 的 运行 方式 来 运转 ， 而 无 需 进 一 
步 的 验证 ; 亦 即 ， 这 个 验证 是 在 构造 虚拟 机 的 时 候 完 成 的 。 这 是 硬件 设计 者 针对 微 处 理 器 中 的 
ISA 兼容 性 所 使 用 的 典型 标准 。 不 过 ， 对 进程 虚拟 机 来 说 ， 这 是 一 个 非常 严格 的 要 求 ; 在 许多 情 
况 下 ， 它 比 实际 真正 需要 的 或 者 能 够 达到 的 还 要 严格 。 

可 能 对 于 进程 虚拟 机 来 说 ， 更 加 有 用 的 是 外 在 兼容 性 (extrinsic compatibility) 。 这 种 形式 的 
兼容 性 不 仅 依赖 于 虚拟 机 的 实现 ， 而 且 依 赖 于 由 外 部 提供 的 、 与 客户 机 软件 性 质 相 关 的 保证 或 
证 明 。 外 在 兼容 性 对 于 运行 在 虚拟 机 上 的 某 些 程序 是 有 效 的 ， 但 对 其 他 的 却 并 非 如 此 。 例 如 ， 经 
某 种 编译 器 编译 并 且 使 用 某 一 库 集合 的 所 有 程序 可 以 定义 一 种 级 别 的 外 在 兼容 性 。 另 外 ， 只 要 
一 个 程序 有 有 限 的 资源 需求 ， 它 就 是 兼容 的 ， 如 其 结构 化 的 内 存 空间 需求 少 于 本 地 平台 所 能 支 
持 的 最 大 容量 。 或 者 一 个 软件 开发 者 可 以 利用 一 个 特殊 的 程序 ， 通 过 调试 和 其 他 验证 技术 ， 声 明 
或 保证 这 个 程序 在 一 个 给 定 的 进程 虚拟 机 上 运行 时 将 给 出 兼容 的 行为 。 例 如 ，Digital FX! 32 系 
统 开 发 的 目的 是 提供 透明 的 操作 ， 虽 然 Digital 维护 了 一 系列 被 证 明 是 兼容 的 Windows 应 用 。 根 
据 外 在 兼容 性 ， 需 要 明确 规定 为 了 达到 兼容 性 所 必须 保持 的 外 部 特征 ， 如 应 该 使 用 的 编译 器 或 
者 所 需 的 逻辑 资源 。 

3.2.2 一 个 兼容 性 框架 


事实 上 ， 不 管 是 内 在 的 还 是 外 在 的 兼容 性 ， 证 明 兼 容 性 有 效 是 一 个 相当 困难 的 问题 。 在 和 虚 
拟 机 一 样 复杂 的 系统 中 ， 兼 容 性 通常 是 通过 测试 套件 连同 人 们 对 手边 密切 熟悉 的 系统 的 逻辑 推 
理 来 保证 的 。 由 于 兼容 性 难以 用 任何 严密 的 方式 来 证 明 ， 所 以 我 们 希望 至 少 能 有 某 一 种 框架 ， 在 
该 框架 内 可 以 对 兼容 性 进行 推理 并 讨论 兼容 性 问题 。 

我 们 首先 分 解 系统 并 按照 与 通常 构造 进程 虚拟 机 相 一 致 的 方式 来 组 织 系 统 ， 而 不 是 把 系统 
作为 一 个 整体 来 考虑 ， 包 括 客户 机 软件 、 虚 拟 机 软件 、 操 作 系统 和 硬件 平台 。 那 么 ， 我 们 就 可 以 
对 各 部 分 进行 推理 了 。 

为 了 建立 一 个 用 于 讨论 兼容 性 的 框架 ， 我 们 考虑 第 1 章 中 描述 的 同 态 〈 图 12)。 亦 即 ， 我 
们 集中 于 1) 客户 机 和 主机 之 问 状 态 (或 者 包含 状态 的 “资源 ”) 的 映射 ， 和 “(2) 在 客户 机 
和 主机 上 转换 状态 的 操作 。 一 个 应 用 程序 按照 两 种 方式 执行 关于 状态 的 操作 : 通过 执行 属于 用 
P ISA 的 指令 和 通过 操作 系统 调用 ( 显 式 地 调用 或 通过 陷阱 和 中 断 )。 因 此 ， 我 们 将 状态 分 为 用 
户 管理 状态 和 操作 系统 管理 状态 。 用 户 管理 状态 通过 用 户 级 ISA 来 操作 并 主要 由 结构 化 的 主 存 
和 寄存 器 组 成 。 操 作 系统 管理 状态 包括 磁盘 文件 和 其 他 存储 设备 的 内 容 ， 也 包括 诸如 图 形 显示 
和 网 络 等 与 资源 相关 的 状态 。 

状态 映射 

关于 用 户 管 理 状态 ,我 们 通常 假设 在 客户 机 和 主机 状态 之 间 直 接 映射 ， 不 过 保存 状态 的 资 
源 不 必 具 有 相同 的 类 型 。 例 如 ， 客 户 机 寄存 器 可 以 被 映射 到 主机 的 主 存 。 其 中 的 关键 是 对 于 一 个 
保存 客户 机 状态 的 给 定 资源 ， 如 特定 的 寄存 器 或 内 存单 元 ， 主 机 中 的 相关 资源 是 容易 识别 的 ， 并 
且 能 够 简单 地 确定 相关 的 客户 机 和 主机 状态 是 否 等 价 。 操 作 系 统管 理 状态 处 理 起 来 有 点 困难 ， 
因为 它 能 以 许多 形式 保存 ， 并 且 在 状态 上 的 操作 经 常 根据 操作 系统 抽象 来 表达 ; 不 过 ， 状 态 映射 
的 概念 是 相同 的 。 

操作 

当 程 序 运行 在 一 个 本 地 平台 上 时 ， 它 执行 用 户 级 指令 ， 偶 尔 会 将 控制 转移 到 操作 系统 CH 
过 系统 调用 、 陷 阱 或 者 中 断 ) 。 当 操作 系统 完成 调用 、 陷 阱 或 中 断 服务 时 ， 它 将 控制 转 回 到 用 户 
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级 指令 。 用 户 级 指令 修改 用 户 管理 状态 ， 操 作 系 统 执行 对 操作 系统 管理 状态 和 /或 用 户 管理 状态 
的 修改 操作 。 控 制 在 用 户 代 码 和 操作 系统 〈 即 陷阱 和 操作 系统 调用 ) 之 间 的 转移 点 是 我 们 兼容 
性 框架 的 一 个 关键 要 素 。 

在 进程 虚拟 机 中 ， 有 一 些 符合 本 地 平台 的 操作 和 控制 转移 集合 。 仿 真 引擎 使 用 解释 和 /或 二 
进 制 翻译 来 仿真 用 户 指令 ， 而 操作 系统 和 例外 仿真 器 执行 操作 系统 功能 。 为 此 ， 运 行 时 软件 的 仿 
真 例 程 是 否 可 以 调用 底层 主机 操作 系统 取决 于 被 仿真 的 操作 。 在 任何 情况 下 ,对 于 每 个 在 本 地 
平台 上 的 用 户 代码 和 操作 系统 之 间 的 控制 转移 ,我们 确定 其 在 虚拟 机 中 相应 的 控制 转移 点 (图 
3-3) 。 这 些 控制 转移 点 之 间 建 立 的 一 一 映射 是 我 们 施加 在 进程 虚拟 机 上 的 结构 的 一 部 分 ， 作 为 我 
们 框架 的 一 部 分 。 在 大 多 数 进程 虚拟 机 实现 中 ， 这 样 的 映射 是 可 以 被 建立 的 ， 因 此 这 个 需求 实际 
上 是 没有 约束 的 。 有 了 这 个 映射 ， 我 们 就 能 重点 关注 在 用 户 指令 和 操作 系统 之 问 控制 转移 点 的 
映射 状态 的 等 价 性 (反之 亦 然 )。 


应 用 内 存 映像 
应 用 内 存 映 像 


won DT TT fom 
本 地 操作 系统 














主机 操作 系统 


图 3-3 ”进程 虚拟 机 (A) 中 的 用 户 指令 和 操作 系统 间 的 控制 转移 与 本 地 平台 《 右 ) 
中 的 用 户 指令 和 操作 系统 间 的 控制 转移 间 的 对 应 关系 


充分 的 兼容 性 条 件 

假设 相应 的 控制 转移 点 已 经 被 识别 了 ， 我 们 给 出 如 下 的 兼容 性 条 件 。 

1. 在 控制 从 仿真 用 户 指令 转移 到 操作 系统 的 地 点 ， 在 给 定 状态 映射 的 条 件 下 ， 客 户 机 状态 
和 主机 状态 是 等 价 的 。 这 个 条 件 的 一 个 重要 结果 就 是 等 价 的 用 户 管理 状态 不 必 在 指令 粒度 上 维 
护 ; 而 只 必须 在 操作 系统 控制 转移 粒度 上 维护 。 这 些 是 状态 可 以 对 “外 界 ” 可 见 的 唯一 点 。 这 
允许 指令 仿真 的 执行 方式 相当 灵活 。 特 别 地 ， 翻 译 目标 代码 可 以 被 充分 地 重新 组 织 和 优化 
只 要 用 户 管理 状态 在 控制 转移 到 操作 系统 或 者 例外 仿真 器 时 是 相同 的 。 

另 一 方面 ， 我 们 保守 地 假设 当 操作 系统 接管 时 ， 所 有 的 用 户 管理 状态 会 暴露 给 外 界 ， 因 此 在 
那个 时 间 点 所 有 客户 机 和 相应 的 主机 状态 需要 是 等 价 的 。 例 如 ， 热 行文 件 读 或 写 的 系统 调用 可 
以 只 修改 客户 机 进程 的 内 存 状态 的 一 个 特定 部 分 ， 而 不 是 所 有 的 。 然 而 ， 我 们 需要 所 有 的 状态 是 
等 价 的 。 做 一 个 不 很 保守 的 假设 常 需要 深入 地 分 析 底 层 主机 操作 系统 ， 以 确定 可 以 被 每 个 主机 
操作 系统 调用 或 陷阱 处 理 器 所 读 写 的 那 部 分 用 户 管理 状态 。 这 在 某 些 情况 下 是 简单 的 ， 如 文件 
IO， 但 是 在 其 他 情况 下 可 能 不 是 。 为 了 避免 分 析 主 机 操作 系统 ， 我 们 保守 地 假设 可 以 潜在 地 访 
问 所 有 的 用 户 管理 状态 ， 因 此 ， 这 些 状 态 在 控制 转移 时 必须 等 价 。 

2. 在 控制 转移 回 用 户 指令 的 点 上 ， 在 给 定 的 映射 下 ， 客 户 机 状态 〈 包 括 用 户 管理 的 和 操作 








[89] 


[90] 








[91 | 


56 #3 Ë 





系统 管理 的 ) 和 主机 状态 是 等 价 的 。 仿 真 客户 机 的 本 地 操作 系统 活动 由 运行 时 软件 和 主机 操作 
系统 的 组 合 活动 来 仿真 ， 应 产生 系统 的 行为 以 及 对 客户 机 状态 (例如 ,文件 内 容 ) 的 修改 ， 这 
与 为 客户 机 本 地 平台 所 做 的 是 等 价 的 。 这 里 ,一 个 额外 的 考虑 因素 是 对 某 些 操作 系统 行为 ， 如 驱 
动 图 形 终端 或 网 络 接口 ， 操 作 的 顺序 也 必须 是 等 价 的 ， 在 控制 转移 点 观察 到 的 全 部 状态 改变 也 
是 这 样 的 。 

图 3-4 是 基于 图 1-2 的 虚拟 机 同 态 ， 它 说 明了 在 本 地 平台 上 的 客户 机 操作 和 主机 平台 上 相应 
的 操作 。 在 本 地 平台 上 ， 客 户 机 软件 在 用 户 指令 和 操作 系统 的 操作 之 间 来 回迁 移 。 在 每 个 迁移 
点 ， 可 以 确定 一 个 类 似 的 主机 平台 中 的 迁移 点 。 在 这 些 迁 移 点 上 ,由 V 映射 的 状态 必须 是 等 
价 的 。 


e(S';) 
运行 时 & 主机 0S 





图 3-4 兼容 性 ， 根 据 进程 虚拟 机 中 客户 机 和 主机 之 间 的 同 态 来 举例 说 明 。 在 操作 系统 和 用 户 指令 之 间 
迁移 的 控制 转移 点 ， 状 态 必 须 是 等 价 的 

讨论 

刚才 简 述 的 兼容 性 框架 是 假设 进程 虚拟 机 以 某 种 方式 来 组 织 ， 并 且 相 对 非 正式 地 陈述 了 兼 
容 性 的 充分 条 件 。 不 过 这 些 条 件 足 以 让 我 们 在 本 章 和 后 续 章 中 以 简洁 的 方式 来 讨论 兼容 性 问题 。 
很 明显 ， 进 程 虚 拟 机 不 一 定 要 按照 我 们 假设 的 方式 ( 沿 着 图 32 中 的 总 线 ) 来 组 织 ， 也 不 一 定 要 
满足 前 述 的 兼容 性 条 件 。 当 然 ， 我 们 可 以 假设 一 个 对 大 多 数 实际 的 进程 虚拟 机 都 通用 的 结构 ， 并 
且 我 们 所 考虑 的 充分 条 件 对 这 个 给 定 的 通用 虚拟 机 结构 的 兼容 性 是 相当 有 益 的 。 这 里 ， 重 要 的 
是 由 于 拥有 这 种 兼容 性 框架 ， 在 兼容 性 问题 出 现时 ， 就 可 以 更 加 容易 地 识别 它们 ， 然 后 评价 它们 
的 重要 性 。 

像 我 们 所 定义 的 那样 ， 为 了 达到 内 在 兼容 性 ， 刚 刚 陈述 的 条 件 必 须 对 所 有 的 程序 和 数据 都 
有 效 。 相 反 ， 对 于 外 在 兼容 性 ， 条 件 只 对 客户 机 软件 的 一 个 子 集 施加 影响 。 这 些 条 件 可 以 根据 兼 
容 性 框架 的 任意 特征 来 描述 。 我 们 现在 举 几 个 例子 。 

对 于 状态 映射 ， 客 户 机 程序 可 用 的 内 存 地 址 空间 可 以 少 于 本 地 平台 的 最 大 容量 ; 因此 ， 一 个 
合适 的 状态 映射 只 能 提供 给 那些 内 存 空间 需求 不 超过 某 个 虚拟 机 限制 范围 的 程序 。 从 而 ， 只 有 
不 超过 某 一 容量 的 进程 才能 获得 外 在 兼容 性 。 

对 于 榨 制 转移 的 映射 ， 可 能 在 有 些 情况 下 ， 某 些 到 操作 系统 的 控制 转移 在 二 进 制 翻译 过 程 
中 可 能 被 消除 了 。 这 发 生 在 某 些 潜在 的 陷阱 指令 在 目标 代码 优化 过 程 中 (我 们 将 在 第 4 章 中 看 
到 ) 被 排除 的 条 件 下 。 这 里 ， 对 于 那些 已 知 不 出 现 陷阱 条 件 ( 可 能 依 束 于 输入 数据 的 程序 来 
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说 ， 是 可 以 获得 外 在 兼容 性 的 。 

对 于 用 户 级 指令 ， 可 能 有 些 情况 下 客户 机 浮 点 运算 不 像 在 本 地 平台 上 那样 精确 〈 见 2.8.3 
节 ) 。 针 对 这 些 虚拟 机 ， 只 有 那些 浮 点 精度 足够 满足 用 户 需要 的 程序 可 以 获得 外 在 兼容 性 。 

对 于 操作 系统 的 操作 ， 可 能 有 些 情 况 下 主机 操作 系统 不 能 精确 地 支持 与 客户 机 本 地 操作 系 
统 相 同 的 功能 。 客 户 机 可 以 避免 这 些 操作 系统 特征 作为 获得 外 在 兼容 性 的 一 种 途径 。 

在 Breunig 的 论文 《Bruening 2004) 中 ， 对 进程 虚拟 机 的 兼容 性 问题 进行 了 有 启发 性 的 全 面 
讨论 。 在 这 篇 著作 中 ， 某 些 兼 容 性 问题 比 我 们 这 里 所 做 的 还 要 细 化 。 例 如 ， 堆 和 栈 的 内 存 状态 等 
价 性 被 分 开 考 虑 。 


3.2.3 实现 依赖 


将 结构 和 实现 分 开 对 于 计算 机 系统 的 设计 是 很 重要 的 (第 1.2 节 )。 以 ISA 为 例 ， 这 种 分 开 
是 将 一 个 设计 的 功能 特性 与 实现 特性 相 分 离 。 然 而 有 些 情 况 下 ， 实 现 特性 在 体系 结构 中 变 得 可 
见 了 ,并且 引发 了 功能 上 的 差异 。 这 些 经 常 不 十 分 明显 的 影响 有 时 会 使 完全 精确 的 仿真 最 为 
困难 。 

可 能 最 通常 的 例子 是 调用 cache。 这 样 的 一 个 例子 发 生 在 具有 分 离 的 指令 和 数据 cache 的 处 
理 器 中 ,今天 已 被 普遍 实现 。 如 果 程 序 向 自己 的 指令 空间 写 人 〈 即 自修 改 代 码 ) ， 某 些 处 理 器 实 
现 不 自动 更 新 指令 cache 的 内 容 〈 或 清除 指令 cache ， 这 有 相同 的 效果 ) 。 相 反 地 ， 被 修改 的 指令 
的 老 版 本 仍 保留 在 cache 中 直到 它 被 替换 出 去 。 这 会 导致 不 确定 性 ， 因 为 程序 的 结果 可 能 依赖 于 
诸如 上 下 文 切换 的 外 部 事件 ， 这 种 事件 会 影响 指令 cache 的 内 容 。 为 了 避免 这 个 问题 ， 应 该 由 程 
序 员 (或 者 编译 器 ) 在 自修 改 代码 被 执行 之 后 来 清除 指令 cache。 这 可 以 显 式 地 通过 为 此 提供 的 
指令 来 完成 ， 或 者 隐 式 地 通过 一 个 仔细 组 织 的 代码 序列 来 完成 ， 这 个 代码 序列 可 使 被 修改 的 
cache 空间 被 蔡 换 掉 的 。 最 后 的 结果 却 是 指令 cache 变 得 对 结构 可 见 一 一 它 的 存在 能 够 影响 软件 
的 功能 。 

这 好 像 是 一 个 小 问题 。 实 际 上 在 仿真 过 程 中 ， 有 时 最 容易 使 自修 改 代码 执行 这 种 “ 届 辑 ” 
方式 ， 即 总 是 使 用 最 近 版 本 的 代码 。 这 是 可 以 实现 的 ， 例 如 ， 通 过 使 用 3.4.2 节 中 所 描述 的 技 
术 。 然 而 在 有 些 情况 下 ， 陪 明 的 程序 员 利 用 指令 cache 和 自修 改 代码 之 间 的 交互 ， 来 准确 地 识别 
哪个 处 理 器 实现 正在 执行 它们 的 软件 ， 然 后 利用 这 个 信息 在 运行 时 选择 一 个 对 于 给 定 实 现 最 优 
的 程序 版 本 。 如 果 这 种 类 型 的 代码 找到 一 个 “不 存在 ”的 硬件 实现 ， 那 么 通过 仿真 会 产生 什 
AWE? 

如 果 ISA 的 实际 实现 提供 了 一 个 比 规范 要 求 更 加 严格 的 实现 ， 就 会 出 现 一 个 更 麻烦 的 场景 。 
再 次 考虑 指令 cache 的 例子 。 一 个 ISA 规范 可 能 规定 : 只 有 当 cache 通过 执行 某 条 指令 被 显 式 清 
除 时 ， 才 能 保证 自修 改 代码 起 作用 ; 否则 结果 是 不 确定 的 (存在 有 指明 这 种 形式 的 实际 ISA 指 
定 过 这 种 方式 ) 。 然 而 ， 所 有 现存 的 实现 实际 上 都 是 按照 “逻辑 ”方式 来 实现 自修 改 代码 的 ， 即 
使 是 在 没有 执行 指令 cache 清除 指令 的 时 候 。 因 此 ， 可 能 有 一 些 自修 改 代 码 并 不 清除 指令 cache 
但 仍然 “运行 ”于 实际 的 实现 之 上 。 现 在 ， 一 个 虚拟 机 的 开发 者 可 以 依靠 指令 cache 清除 指令 来 
触发 对 驻 留 在 代码 cache 中 的 二 进 制 翻译 代码 的 清除 。 这 不 仅 意味 着 没有 显 式 指 令 cache 清除 的 
自修 改 代码 在 虚拟 机 实现 上 可 以 行为 不 同 ， 而 且 从 用 户 的 角度 还 可 以 引起 一 些 客户 机 代码 “无 
效 ”。 实 际 上 ， 严 格 地 说 ， 虚 拟 机 正确 地 实现 了 规范 ， 但 是 这 会 给 那些 代码 不 再 起 作用 的 用 户 带 
来 小 小 的 安奈。 

通常 没有 好 的 解决 办 法 来 实现 刚刚 描述 过 的 这 类 “漏洞 ” ， 但 是 这 是 虚拟 机 开发 者 应 该 渴望 
知道 的 问题 。 在 阅读 那些 描述 实现 依赖 的 体系 结构 规范 和 硬件 手册 的 小 字 时 要 非常 小 心 。 在 实 [34| 
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现 依赖 可 能 变 得 可 见 并 且 甚 至 可 以 被 使 用 的 地 方 ， 应 该 尽力 想象 复杂 的 场景 。 最 后 的 结果 就 是 
只 能 对 这 种 实现 依赖 提高 警惕 。 


3.3 状态 映射 


我 们 现在 准备 构造 进程 虚拟 机 。 我 们 从 用 户 管 理 状态 的 映射 开始 ， 主 要 是 保存 在 寄存 器 和 
内 存 中 的 状态 。 然 后 ， 在 后 续 节 中 讨论 仿真 的 不 同方 面 ， 即 转移 状态 的 操作 。 

当 我 们 描述 状态 映射 时 ， 经 常 按照 资源 映射 z [ak sam 
来 进行 ， 因 为 事实 上 是 这 些 资源 (寄存 器 和 内 | Se ee 
F) 包含 了 状态 。 例 如 ， 如 果 我 们 说 一 个 客户 机 [| . 5 
内 存 区 域 映射 到 一 个 主机 内 存 区 域 ， 我 们 就 暗 指 [一 一 | oo O, 
保存 在 这 两 个 内 存 区 域 中 的 状态 是 相同 的 。 | 运行 时 | 
图 3-5 说 明了 一 个 典型 的 状态 映射 。 在 这 个 例子 | 数据 .| 
中 ,客户 机 数据 和 代码 映射 到 主机 用 户 的 地 址 空 ee | 
间 并 且 和 用 户 地 址 空间 共享 运行 时 软件 的 代码 — .. fa 
和 数据 。 | 
NEE ELIE EE EL wie | | 主机 ABI 
辑 地 址 空间 ， 当 我 们 在 这 个 上 下 文中 谈 及 内 存 人 
时 ， 我 们 指 的 是 逻辑 地 址 空间 ， 而 不 是 被 实现 的 | | 
真实 内 存 。 这 个 观点 反映 在 图 3-5 中 ， 这 里 客户 ER 上 
机 内 存 地 址 空间 中 的 区 域 映射 到 主机 内 存 地 址 空 “| 客户 机 数据 | | 
间 中 的 区 域 。 We es Y 

客户 机 寄存 器 状态 被 映射 到 主机 寄存 器 并 且 
/或 者 被 维护 在 运行 时 软件 的 数据 内 存 区 中 。 后 “图 35 客户 机 状态 到 主机 状态 的 映射 
面 的 映射 说 明了 一 个 重点 一 一 客户 机 状态 不 必 像 它 在 本 地 平台 上 一 样 被 维护 于 同类 资源 中 。 类 
似 地 ， 在 某 些 情况 下 ,将 客户 机 内 存 映射 到 文件 系统 存储 而 不 是 主机 主 存 可 能 是 方便 的 。 然 而 ， 
这 些 状态 映射 完成 的 方式 与 所 使 用 的 仿真 技术 和 达到 的 结果 性 能 有 很 大 关系 。 


3. 3.1 寄存 器 映射 


寄存 器 空间 映射 是 相当 简单 的 并 且 在 2.5 节 和 2.8. 1 节 中 讨论 过 了 ; 这 里 做 一 下 总 结 。 如 果 
客户 机 ISA 寄存 器 的 数目 少 于 主机 ISA 寄存 器 的 数目 ， 那 么 在 仿真 过 程 中 就 可 能 将 所 有 的 客户 
机 寄存 器 映射 到 主机 寄存 器 。 另 外 ， 通 常 有 一 个 寄存 器 上 下 文 块 被 运行 时 软件 维护 于 内 存 中 。 当 
进入 仿真 器 时 ， 运 行 时 软件 从 这 个 寄存 器 上 下 文 块 加 载 寄存 器 的 内 容 ， 而 当 离 开 仿真 器 时 ， 则 将 
寄存 器 的 内 容 卸 载 到 寄存 器 上 下 文 块 中 。 换 句 话 说， 当 执行 除 仿真 以 外 的 任务 时 ， 运 行 时 软件 可 
以 使 用 几乎 所 有 的 寄存 器 ， 然 后 只 要 仿真 在 进行 就 可 以 将 寄存 器 交 给 客户 机 接管 。 

如 果 客 户 机 和 主机 中 的 寄存 器 数目 是 相同 的 ， 或 者 近似 相同 ， 理 论 上 就 可 以 将 所 有 的 主机 
寄存 器 映射 到 客户 机 寄存 器 。 但 是 ， 如 果 仿 真 过 程 自身 需要 寄存 器 (和 解释 情况 一 样 )， 或 者 如 
果 运 行 时 软件 对 频繁 执行 的 代码 进行 动态 优化 ， 那 么 就 会 产生 一 个 问题 。 在 某 些 ISA 中 ， 从 上 下 
文 块 中 加 载 和 和 缉 载 寄存 器 可 能 是 一 个 难题 ， 因 为 为 了 完成 一 个 到 寄存 器 上 下 文 的 存储 ,需要 一 
个 寄存 器 来 保存 上 下 文 块 的 地 址 。 如 果 所 有 的 寄存 器 被 仿真 过 程 所 使 用 ， 那 么 这 个 额外 的 寄存 
器 就 完全 不 可 用 了 。 

如 果 客 户 机 寄存 器 的 数目 比 主机 寄存 器 的 数目 多 ， 那 么 某 些 客户 机 寄存 器 必须 被 映射 到 主 
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机 内 存 中 的 一 个 寄存 器 上 下 文 块 中 。 运 行 时 软件 通常 通过 翻译 器 ， 在 仿真 进行 中 将 客户 机 寄存 
器 移 人 和 移出 主机 寄存 器 ， 从 而 负责 管理 主机 寄存 器 空间 。 [55 


3.3.2 ”内存 地 址 空间 映射 


客户 机 和 主机 指令 集 都 有 特定 的 内 存 结构 ， 而 将 客户 机 地 址 空间 映射 到 主机 地 址 空间 并 且 
维持 保护 需求 是 运行 时 软件 仿真 过 程 的 任务 。 特 别 地 ， 当 客户 机 程序 执行 加 载 、 存 储 或 者 取 指 
时 ， 都 要 访问 由 客户 机 ISA 定义 的 客户 机 地 址 空间 中 的 某 个 地 址 A。 然 而 ， 在 状态 映射 之 后 ， 客 


户 机 地 址 A 中 的 数据 或 者 代码 可 能 实际 上 被 E 机 应 用 
放 在 主机 地 址 空间 中 的 某 个 其 他 地 址 A 中 ， 客户 机 应 用 Fes a 
LAS jE EAS S| 


而 运行 时 仿真 软件 必须 能 够 完成 所 需 的 地 址 。， 
空间 映射 。 正 如 指令 仿真 一 样 ， 会 有 一 系列 | 
的 可 能 性 用 于 完成 跨越 不 同性 能 水 平 的 地 址 。 | 
空间 映射 ， 这 是 由 软件 仿真 执行 的 数量 与 在 | + | 
主机 硬件 上 直接 执行 的 数量 相 比 而 决定 的 。 | |} Le 
运行 时 软件 支持 的 转换 表 | | | 
图 3-6 说 明了 内 存 结构 仿真 的 最 灵活 的 | | << at) 
方式 。 和 前 一 章 中 描述 过 的 指令 解释 一 样 ， | mass 
越 灵活 的 方式 也 越 趋 于 软件 密集 。 3-68 [L | 运行 时 
示 了 运行 时 维护 的 软件 转换 表 ， 它 类 似 于 传 一 
统 的 页 表 。 客 户 机 地 址 不 必 被 连续 地 映射 在 图 3-6 通过 软件 实现 的 地 址 转换 表 来 仿真 内 存 地 址 结构 
主机 地 址 空间 中 。 客 户 机 地 址 空间 可 以 被 划分 成 块 ， 实 际 上 ， 每 个 块 是 具有 多 个 主机 页 大 小 的 某 
一 整体 。 然 后 客户 机 地 址 被 转换 到 主机 地 址 ， 这 通过 执行 一 个 表 查 找 来 找 出 客户 机 块 的 起 始 处 
在 主机 空间 内 的 偏 移 量 完成 。 


Initially, rl holds source address 
r30 holds base address of translation table 


r29,r1,16 ;Shift r1 right by an immediate 16 
r29,r29,2 ;convert to a byte address in table 


r29,r29,r30 ;load block location in host memory 
r28,r1,16 sshift left/right to zero out 
r28,r28,16 ; source block number 

r29,r29,16 ;shift up target block number 
r29,r28,r29 ;form address 

r2,0(r29) ;do load 


图 3-7 执行 一 个 带 有 软件 映射 方式 的 加 载 指令 的 代码 序列 


图 3-7 包含 了 一 个 代码 实例 ， 它 使 用 软件 实现 的 转换 表 来 仿真 一 条 加 载 指令 。 在 这 个 例子 
中 ， 假 设 每 个 被 映射 的 内 存 块 是 64KB 。 转 换 表 本 身 作为 运行 时 软件 的 一 部 分 来 维护 ， 它 的 基 址 
保存 在 主机 寄存 器 130 中 。 为 了 执行 加 载 ， 源 地 址 被 移动 16 位 以 得 到 64KB 的 块 号 。 该 块 号 转化 
成 偏 移 量 并 与 表 基 址 相 加 ， 所 得 的 被 用 来 访问 特定 的 表 项 。 这 个 表 项 含有 一 个 到 主机 地 址 空间 
中 地 址 块 的 指针 。 这 个 块 地 址 替换 了 源 客户 机 地 址 中 的 块 地 址 ， 然 后 被 用 来 执行 所 需要 的 加 载 。 
实际 上 ，PowerPC 有 两 条 指令 是 为 这 些 操作 类 型 而 设计 的 : rlwimi (循环 左 移 立即 字 然 后 插入 掩 
码 ) 和 winm (循环 左 移 立即 字 并 且 带 有 掩 码 ) 指令 。 我 们 在 这 用 括号 中 较 长 的 文字 来 清楚 地 
说 明 这 两 条 指令 的 全 部 操作 。 

很 明显 ， 这 与 传统 虚 地 址 系统 中 使 用 的 将 虚 地 址 转化 为 实地 址 的 地 址 转换 很 相似 。 图 3-8 描 
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述 了 进一步 扩展 这 种 相似 之 处 的 方法 。 这 里 ， 运 行 时 软件 打开 了 一 个 磁盘 文件 ， 该 文件 保存 还 没 
有 驻 留 在 主机 地 址 空间 的 、 属 于 客户 机 地 址 空间 中 任意 部 分 的 数据 。 尽 管 与 传统 的 虚拟 内 存 相 
似 , 但 是 客户 机 虚 地 址 空间 实际 上 被 映射 到 主机 虚 地 址 空间 的 一 个 区 域 中 ， 而 不 是 被 映射 到 实 
际 的 内 存 。 主 机 虚 地 址 空间 依次 地 通过 底层 主机 系统 被 映射 到 主机 实际 上 内存。 





图 3-8 将 客户 机 地 址 空间 映射 到 主机 空间 的 一 个 区 域 中 。 运 行 时 软件 按 和 主机 操 
作 系 统管 理 其 实际 内 存 相同 的 方式 来 管理 主机 地 址 空间 区 域 

在 任何 一 个 时 刻 ， 一 个 给 定 的 客户 机 内 存 块 可 以 出 现 或 不 出 现在 主机 内 存 中 。 因 此 在 转换 
表 中 增加 一 个 “有 效 ” 位 以 指明 被 访问 的 客户 机 块 是 否 出 现在 主机 地 址 空间 中 。 运 行 时 软件 访 
问 转换 表 ， 不仅 执行 地 址 查找 而 且 要 测试 有 效 位 ; 当 要 访问 的 块 不 存在 时 ， 将 转移 到 运行 时 的 内 
存 管理 软件 。 运 行 时 内 存 管理 器 然后 决定 要 替换 哪个 块 ， 执 行 必要 的 磁盘 IO， 修 改 转换 表 ， 然 
后 返回 到 仿真 。 

这 种 按部就班 的 软件 密集 的 映射 方式 与 对 指令 简单 的 译 码 - 分派 解释 在 概念 上 是 相似 的 。 
不 过 ， 它 的 使 用 不 局 限于 解释 ; 还 可 以 用 于 任何 其 他 仿真 方案 ， 包 括 二 进 制 翻译 。 在 二 进 制 翻译 
环境 中 ， 这 种 方案 的 相对 开销 是 值得 考虑 的 。 但 是 如 果 在 客户 机 和 主机 ABI 之 间 有 语义 的 不 匹 
配 ， 则 这 个 开销 可 能 是 不 可 避免 的 。 一 个 最 好 的 例子 就 是 主机 应 用 地 址 空间 不 足以 容纳 典型 的 
客户 机 应 用 ， 例 如 ， 如 果 一 个 64 位 的 客户 机 正 被 一 个 32 位 的 主机 平台 仿真 。 关 键 的 一 点 就 是 如 
果 所 有 其 他 的 方法 都 失败 ， 就 可 以 使 用 这 种 软件 密集 的 方法 。 

直接 转换 方法 

接 下 来 我 们 考虑 更 多 地 依赖 于 底层 硬件 而 较 少 依赖 于 虚拟 机 软件 的 地 址 空间 映射 方式 。 同 
样 地 ， 它 们 与 对 指令 仿真 的 二 进 制 翻译 有 点 类 似 。 有 两 种 直接 转换 方式 ， 如 图 3-9 所 示 ， 其 中 一 
个 是 另 一 个 的 特例 。 

图 3-9a 说 明了 一 个 客户 机 地 址 空间 已 经 被 一 个 固定 偏 移 量 替代 ， 但 是 在 主机 空间 内 仍然 是 
连续 的 。 在 这 种 情况 下 ， 偏 移 量 的 值 可 以 保存 在 一 个 主机 寄存 器 中 ， 在 仿真 过 程 中 它 会 与 每 个 客 
户 机 地 址 相 加 。 在 图 中 显示 的 例子 里 ， 运 行 时 软件 被 放 在 主机 地 址 空间 的 起 始 处 ， 而 客户 机 程序 
被 放 在 上 部 。 在 客户 机 地 址 空间 中 ， 每 个 位 置 要 偏 移 一 个 固定 量 以 确定 它 在 客户 机 8 地 址 空间 中 
的 位 置 。 这 个 固定 的 偏 移 量 映射 在 图 2-16 中 给 出 的 仿真 代码 中 被 使 用 。 





O 应 为 主机 。 一 一 译 者 注 
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图 3-9b 显示 了 一 个 重要 的 特例 ， 这 里 固定 偏 移 量 是 0， 这 意味 着 客户 机 地 址 在 主机 虚 地 址 空间 
中 有 相同 的 位 置 。 运 行 时 软件 现在 需要 位 于 分 配给 客户 机 的 地 址 空间 部 分 之 外 的 区 域内 ， 如 图 所 
示 。 在 仿真 过 程 中 这 会 导致 客户 机 地 址 到 主机 地 址 的 映射 非常 简单 。 在 这 种 情况 下 ， 源 内 存 的 加 载 
和 存储 指令 可 以 经 常 被 一 一 翻译 到 目标 加 载 和 存储 ， 而 不 需要 任何 额外 的 地 址 转换 指令 。 


[ nee | | 运行 时 
Ta | ”软件 
| 客户 机 应 用 | 
客户 机 应 用 地 址 空间 | | 
地 址 空间 | | 客户 机 应 用 | 客户 机 应 用 
| | 地 址 空间 | 地 址 空间 
| 运行 时 | | | 
Ler cis | veel ata 
+ 基地 址 
a) 当 客户 机 地 址 在 主机 空间 内 有 常数 偏 移 时 b) 客户 机 地 址 被 放 在 主机 空间 内 相同 的 位 置 时 


图 3-9 客户 机 地 址 空间 到 主机 空间 的 直接 映射 


兼容 性 问题 

在 选择 要 采用 的 内 存 映 射 和 翻译 方式 时 ， 客 户 机 和 主机 地 址 空间 的 相对 容量 有 重要 的 含义 ， 
这 取决 于 所 期 望 的 性 能 和 兼容 性 级 别 。 一 个 重要 的 考虑 因素 是 运行 时 软件 〈 代 码 和 数据 ) SE 
户 机 应 用 共享 同一 个 地 址 空间 。 

如 果 想 要 实现 内 在 兼容 性 和 高 性 能 的 虚拟 机 ， 那 么 对 主机 地 址 空间 来 说 ， 可 能 有 必要 比 客 
户 机 地 址 空间 大 ， 以 便 最 大 的 客户 机 进程 和 运行 时 软件 可 以 同时 安装 到 主机 地 址 空间 中 。 此 时 
就 可 以 采用 直接 映射 方法 ， 如 图 3-9b。 一 个 常见 的 情况 就 是 IA-32 ISA 被 仿真 于 一 个 包含 64 位 
ISA 的 平台 上 (Baraz 等 2003; Hookway 和 Herdeg 1997) 。 

如 果 主 机 地 址 空间 不 比 运行 时 软件 和 最 大 客户 机 进程 的 组 合 大 ， 那 么 就 必须 牺牲 性 能 或 者 
牺 竹 内 在 兼容 性 。 使 用 图 3-8 中 的 软件 转换 方式 会 实现 内 在 兼容 性 ， 这 要 以 每 条 源 加 载 或 存储 指 
令 对 应 有 几 条 目标 指令 为 代价 。 

另 一 方面 ， 被 客户 机 应 用 实际 使 用 的 内 存 没 有 必要 是 主机 AB 允许 的 最 大 规模 ; 实际 上 在 
大 多 数 情况 下 ， 客 户 机 应 用 不 会 到 达 最 大 容量 。 此 外 ， 在 许多 情况 下 ， 用 户 使 用 标准 库 来 编译 程 
FF 〈 对 典型 用 户 大 小 未 知 ) ， 并 且 大 多 数 用 户 程序 不 依赖 于 一 个 特定 的 内 存 容 量 或 特定 的 内 存 地 
址 。 在 这 些 情 况 下 ， 一 种 外 在 兼容 性 形式 就 完全 足够 了 。 特 别 地 ， 只 要 客户 机 的 虚拟 内 存 需 求 不 
超过 运行 时 软件 被 装 人 内 存 后 剩余 的 空间 ， 就 可 以 实现 兼容 性 了 。 此 外 ， 如 果 运 行 时 软件 的 放置 
在 战略 上 与 客户 机 进程 有 关 ， 那 么 就 可 以 采用 高 效 的 直接 转换 。 依 据 战略 性 的 放置 ， 我 们 将 放置 
在 没有 被 客户 机 进程 使 用 的 区 域内 。 这 可 能 意味 着 运行 时 软件 以 位 置 独立 的 方式 实现 ， 因 此 不 
管 它 被 放 在 内 存 中 的 什么 位 置 它 都 能 正确 地 运行 。 这 人 允许 运行 时 软件 将 自身 放 在 一 个 不 与 应 用 
程序 所 使 用 的 位 置 相 冲突 的 区 域内 。 依 赖 于 加 载 器 的 约定 ， 某 些 应 用 可 以 放 在 上 面 的 内 存 中 ， 其 
他 的 放 在 较 低 的 内 存 中 ， 还 有 另外 的 放 在 许多 不 连续 的 内 存 区 域内 。 另 外 ， 在 仿真 过 程 中 当 应 用 
程序 分 配 或 删除 内 存 块 时 ， 运 行 时 软件 可 以 被 移动 。 


3. 4 内 存 结构 仿真 
给 定 了 地 址 空间 映射 和 实现 方法 ， 内 存 结构 还 有 几 个 方面 必须 在 进程 虚拟 机 中 被 仿真 。 特 
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别 地 ， 必 须 考虑 ABI 内 存 结构 ( 即 被 用 户 程序 看 到 的 内 存 ) 的 三 个 主要 特征 : 
© 地 址 空间 的 整体 结构 。 如 它 是 否 被 划分 成 段 或 是 一 个 单调 的 线性 地 址 空间 。 对 于 大 多 数 
的 讨论 ， 我 们 假设 为 一 个 单调 的 线性 地 址 空间 ， 因 为 最 通用 的 ABI 使 用 一 个 线性 地 址 空 
间 (尽管 它 可 以 进一步 被 细 分 成 堆 和 栈 ) 。 虚 拟 化 分 段 内 存 的 技术 可 以 建立 在 这 些 线性 
空间 技术 的 基础 之 上 。 
。 所 支持 的 访问 特权 类 型 。 某 些 ABI MAE. BL AT (R, W, E) 特权 ， 而 其 他 的 则 局 
限于 仅仅 支持 R 和 W。 

© 保护 /分 配 粒 度 。 即 被 操作 系统 分 配 的 最 小 内 存 块 大 小 和 保护 特权 在 哪个 粒度 上 被 维护 。 
在 大 多 数 系统 中 ， 内 存 分 配 的 粒度 和 保护 的 粒度 相同 ， 即 使 严格 来 说 ， 它 们 并 不 需要 
相同 。 

大 多 数 通用 的 ABI 定义 了 一 个 对 用 户 可 用 的 特定 大 小 和 地 址 范围 。 图 3-10 说 明了 为 Win32 
ABI 定义 的 地 址 空间 。 系 统 保留 了 两 个 64KB 的 块 〈 在 31 位 地 址 空间 的 顶部 和 底部 )。 在 31 位 
地 址 空间 内 的 所 有 其 他 位 置 对 用 户 进 程 是 可 用 的 。 用 户 可 以 保留 一 些 内 存 块 以 后 使 用 。 用 户 也 
可 以 提交 一 个 内 存 区 域 ， 这 意味 着 用 户 被 授予 访问 权 并 且 那 个 磁盘 空间 被 按 页 分 配 。 关 键 一 点 








102] 就 是 用 户 进程 被 授权 访问 不 在 保留 范围 内 的 所 有 地 址 。 和 先前 指出 的 一 样 ， 这 有 重要 的 含义 ， 因 








为 运行 时 软件 必须 以 透明 的 方式 和 用 户 进程 共享 地 址 空间 。 
7FFF FFFF 
7FFE FFFF 


0001 0000 
0000 0000 


图 3-10 Win32 ABI 内 存 结 构 。 系 统 在 内 存 的 项 部 和 底部 保留 了 区 域 。 用 户 可 
以 保留 特定 范围 的 地 址 并 且 以 后 使 用 它们 或 使 之 保持 空闲 


3.4.1 内 存 保护 


103 内 存 结构 的 一 个 重要 方面 就 是 内 存 保护 。 大 多 数 ISA 允许 在 不 同 的 内 存 空 间 区 域内 设置 访 
问 限制 。 这 些 限 制 通 常 被 指定 为 读 、 写 和 执行 (或 者 一 个 也 没有 ) 的 某 一 组 合 。 
如 果 使 用 软件 转换 表 (图 3-6) ， 那 么 保护 检查 的 仿真 是 简单 的 。 保 护 信息 可 以 被 保存 于 转 
换 表 中 ， 而 检查 可 以 作为 转换 过 程 的 一 部 分 被 完全 仿真 。 这 本 质 上 是 传统 虚拟 内 存 系 统 中 实现 
方式 的 一 个 软件 版 本 。 和 先前 指出 的 一 样 ， 这 种 方法 功能 正确 但 很 慢 。 
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然而 ， 对 于 直接 或 偏 移 寻 址 (图 3-9) ， 没 有 软件 转换 表 来 维护 特权 信息 。 无 疑 地 ， 可 以 增 
加 软件 表 专 门 用 于 保护 检查 ， 尽 管 这 种 方法 会 损失 效率 。 依 赖 于 主机 操作 系统 提供 的 支持 ， 可 以 
实现 一 个 更 加 高 效 的 依靠 底层 主机 硬件 的 保护 检查 方法 。 这 要 求 运行 时 软件 有 一 些 方 法 来 指导 
主机 操作 系统 实现 页 保护 ， 以 匹配 客户 机 的 仿真 需求 。 主 机 支持 的 性 质 和 它 在 实现 有 效 保护 检 
查 方面 的 使 用 将 在 下 一 小 节 中 描述 。 

主机 支持 的 内 存 保护 

利用 主机 操作 系统 的 两 个 普通 特性 ， 主 机 平台 可 以 仿真 内 存 保护 : 

1. 应 用 程序 调用 系统 调用 (在 这 种 情况 下 通过 运行 时 软件 ) 来 指定 页 和 对 页 的 访问 特权 
( 读 、 写 、 执 行 、 一 个 也 没有 )。 

2. 只 要 内 存 访 问 违 反 了 为 所 在 页 指定 的 特权 ， 就 会 传递 一 个 内 存 访问 故障 信号 给 运行 时 
软件 。 

某 些 主机 操作 系统 直接 支持 这 些 特性 。 例 如 在 Linux 中 ，mprotect () 系统 调用 和 SIGSEGV 
信号 提供 了 这 些 功 能 。mprotect 系统 调用 的 参数 是 : (1) 对 齐 到 页 边界 的 虚 地 址 ， (2) 大 小 ， 
和 (3) 保护 说 明 ， 它 是 none、 读 、 写 、 执 行 的 按 位 或 。 如 果 按 错误 权限 访问 一 个 页 ， 就 会 发 出 
SIGSEGV 信和 号 。 

除了 前 面 描述 的 由 操作 系统 支持 的 直接 方法 ， 还 有 一 些 间接 方法 来 仿真 保护 特性 。 例 如 ， 
mmap () Linux 系统 调用 可 以 用 来 映射 运行 时 软件 想 要 访问 控制 的 地 址 空间 区 域 。 这 个 区 域 被 
映射 到 一 个 拥有 所 需 访问 特权 的 文件 ， 如 图 3-11 所 示 。 如 果 应 用 软件 尝试 一 个 不 允许 的 访问 ， 
那么 将 发 出 一 个 SIGSEGV 信和 号 (Bovet 和 Cesati 2001) 。 


“实际 内 存 ” 文 件 


引用 引起 页 缺失 


虚拟 机 的 虚 地 址 空间 er 
引用 成 功 





写 引 起 保护 缺失 


图 3-11 将 客户 机 虚 地 址 空间 的 一 部 分 映射 到 一 个 文件 。 这 个 映射 可 以 通过 映射 、 反 映射 
和 只 读 映 射 来 控制 


这 些 便 利 的 方法 给 运行 时 软件 提供 通过 主机 的 实现 特性 来 控制 访问 客户 机 软件 的 能 力 ， 当 
缺少 这 些 方法 时 ， 运 行 时 软件 总 可 以 回 退 到 访问 内 存 的 低 效率 软件 映射 方法 。 

页 大 小 问题 

现在 我 们 来 考虑 主机 和 客户 机 页 大 小 不 同时 的 情况 ; 显然 ， 当 分 配 和 保护 内 存 时 是 必须 考 
虑 这 种 差异 的 。 就 为 客户 机 页 指派 特定 的 访问 权限 而 言 ， 当 客户 机 页 大 小 是 主机 页 大 小 的 倍数 
时 ， 在 前 述 各 节 中 描述 的 方法 是 相当 简单 的 。 在 这 种 情况 下 ， 与 单个 客户 机 页 相关 的 所 有 主机 页 
被 给 予 相同 的 保护 。 然 而 ， 当 客户 机 页 大 小 比 主 机 页 小 时 ， 同 一 个 主机 页 中 可 以 包含 两 个 或 多 个 
不 同 的 客户 机 页 。 如 果 共 享 同一 主机 页 的 各 个 客户 机 页 的 保护 是 不 同 的 ， 就 会 引起 一 个 问题 。 图 
3-12 说 明了 客户 机 代码 页 和 数据 页 共享 同一 个 主机 页 的 情况 。 客 户 机 页 应 该 有 不 同 的 访问 权限 ， 
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但 是 在 主机 系统 中 必须 给 予 它们 相同 的 保护 。 基 于 软件 的 映射 方法 总 可 以 用 于 解决 这 个 问题 ， 
但 是 会 带 来 庞大 的 开销 。 





图 3-12 客户 机 贡 比 主机 页 小 。 如 果 客 户 机 页 的 大 小 比 主机 页 小 ， 那 么 一 些 主 机 页 
会 在 代码 和 数据 之 间 分 割 开 来 。 这 给 仿真 内 存 保护 带 来 困难 


将 代码 和 数据 区 域 对 齐 到 主机 页 边界 上 好 像 可 以 解决 这 一 难题 ,但 是 这 实质 上 重新 定位 了 
客户 机 地 址 空间 区 域 ， 并 且 为 了 这 种 重 排列 ，ISA 仿真 软件 必须 通过 给 在 重 定位 的 区 域内 的 客户 
机 地 址 加 上 一 个 常数 偏 移 量 来 校正 。 由 于 增加 了 主机 平台 依赖 ， 这 不 仅 会 影响 仿真 的 效率 ， 而 且 
会 降低 仿真 代码 的 可 移植 性 。 

一 个 选择 就 是 像 先 前 描述 的 那样 通过 主机 平台 来 维护 保护 检查 ， 但 是 要 采取 一 种 保守 的 方 
R, 给予 不 同 客户 机 页 所 共享 的 整个 主机 页 以 较 低 的 权限 。 运 行 时 软件 则 必须 处 理 任何 “额外 
的 ”陷阱 ， 它 们 由 信号 处 理 器 软件 或 通过 回复 到 软件 映射 (和 权限 检查 ) 而 产生 。 

使 客户 机 和 主机 内 存 结构 相配 的 另 一 个 问题 就 是 在 两 种 ISA 中 定义 的 保护 类 型 可 能 不 匹配 。 
如 果 主 机 支持 客户 机 保护 的 一 个 超 集 ， 则 客户 机 可 以 被 给 予 正确 的 保护 。 然 而 ， 如 果 主 机 仅仅 支 
持 客 户 机 保护 的 一 个 特定 的 子 集 ， 那 么 虚拟 机 软件 则 必须 像 前 面 描述 的 那样 ， 使 用 保守 的 保护 
分 配 或 依靠 软件 检查 。 

一 个 重要 的 案例 就 是 主机 仅仅 支持 RW 权限 而 客户 机 支持 RWE。 这 是 在 实际 中 出 现 的 最 普 
遍 的 不 匹配 情况 。 利 用 通过 解释 的 仿真 ， 解 释 器 代码 可 以 像 其 正常 操作 的 一 部 分 那样 容易 地 检 
查 执 行 保护 ， 只 是 速度 相对 有 点 减 慢 ， 即 通过 软件 转换 表 。 利 用 二 进 制 翻译 ， 只 有 在 运行 时 软件 
读 客 户 机 代码 并 执行 翻译 时 ， 才 不 得 不 检查 对 客户 机 代码 的 执行 保护 。 另 外 ， 运 行 时 软件 必须 能 
发 现 应 用 程序 改变 保护 的 情况 ， 不 过 ， 这 可 以 作为 操作 系统 调用 翻译 过 程 的 一 部 分 来 轻松 地 实 
现 (3,7 节 )。 当 发 生 这 种 情况 时 ， 必 须 丢 弃 任何 受到 影响 的 翻译 代码 。 


3.4.2 自 引用 和 自修 改 代码 


有 时 一 个 应 用 程序 会 引用 自身 〈 即 它 从 其 代码 区 中 读 ) ， 或 者 通过 写 人 代码 区 来 尝试 修改 自 
身 。 当 采用 二 进 制 翻译 时 会 引起 潜在 的 问题 ， 因 为 实际 执行 的 代码 是 翻译 的 代码 而 不 是 最 初 的 
源 代 码 。 如 果 最 初 的 源 代 码 有 对 自身 的 读 或 写 ， 那 么 翻译 版 本 必须 产生 完全 相同 的 结果 。 运 行 时 
软件 必须 正确 地 仿真 这 种 自 引用 和 自修 改 代码 的 实例 。 

基本 方法 

解决 方案 的 基础 对 这 两 个 问题 来 说 是 相同 的 。 特 别 地 ， 自 始 至 终 要 维护 客户 机 程序 代码 的 
精确 内 存 映 像 。 在 翻译 版 本 中 ， 所 有 的 加 载 和 存储 地 址 被 映射 到 源 内 存 区 ， 不管 被 编 址 的 是 代码 
还 是 数据 。 因 此 ， 自 引用 情况 (图 3-13a) 被 自动 正确 地 实现 。 

对 于 自修 改 代码 (图 3-13b)， 最初 的 源 代码 区 域 被 运行 时 软件 写 保 护 。 就 是 说 ， 对 于 所 有 
包含 被 翻译 源 代码 的 页 来 说 ， 其 页 级 写 访问 权限 被 关闭 了 。 这 可 以 通过 由 运行 时 软件 产生 的 系 
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统 调用 来 实现 (如 通过 Linux mprocect( ) ) 。 因 此 ， 任 何尝 试 对 一 个 包含 翻译 代码 的 页 的 写 操作 
都 会 导致 保护 陷阱 ， 并 将 信号 传递 给 运行 时 软件 。 在 那 一 点 ， 运 行 时 软件 能 够 清除 整个 代码 
cache 或 者 仅仅 清除 与 被 修改 的 页 相对 应 的 翻译 〈 通 过 使 用 索引 表 来 跟踪 翻译 代码 块 源 自 哪个 
页 ) 。 然 后 ， 运 行 时 软件 应 该 临时 允许 向 代码 区 域内 的 写 ， 进 入 解释 模式 ， 接 着 向 前 解释 ， 至 少 
到 它 到 达 触 发 故障 的 代码 块 为 止 。 当 翻译 代码 块 修改 其 自身 时 ， 这 种 解释 步骤 保证 向 前 进行 。 那 
么 运行 时 软件 可 以 重新 启用 写 保 护 ， 并 且 继 续 进行 正常 的 操作 ， 这 最 终 导 致 重新 翻译 被 修改 页 
中 的 代码 。 

伪 自 修改 代码 

刚才 描述 的 方法 是 一 个 处 理 自修 改 代 码 的 高 开销 方法 ,但 是 在 大 多 数 情 况 下 ， 它 不 会 显著 
地 损失 性 能 ， 因 为 自修 改 代 码 在 许多 程序 中 十 分 罕见 〈 或 者 不 存在 ) 。 然 而 ， 还 是 有 某 些 程序 或 
者 某 些 类 型 的 程序 ， 其 中 自修 改 代码 或 伪 自 修改 代码 频繁 出 现 并 足以 引起 大 量 的 性 能 损失 。 伪 
自修 改 代 码 描 述 了 可 写 的 数据 区 和 代码 混杂 在 一 起 的 情况 。 就 是 说 ， 对 一 个 “代码 ”页 的 写 人 
不 会 逐 字 地 修改 代码 ， 但 是 会 触发 一 个 写 保 护 故障 。 这 个 代码 有 时 出 现在 汇编 语言 程序 中 ， 例 如 
设备 驱动 、 某 些 性 能 重要 的 游戏 内 核 以 及 嵌入 式 代码 。 


ae \, ”翻译 代码 初始 代码 \ 翻译 代码 O 
_ 
一 [em Ga =>. > 加 => 


a) 自 引 用 代码 
图 3-13 自 引用 和 自修 改 代码 。 保 存 源 代 码 的 一 个 副本 可 以 用 来 解决 以 下 问题 


为 了 处 理 经 常 出 现 的 伪 自 修改 代码 ， 一 种 方法 是 动态 地 检查 源 二 进 制 代码 是 否 在 相应 翻译 
的 目标 代码 执行 前 被 修改 了 (Dehnert 等 ，2003 ) 。 换 名 话说， 如 果 重 复出 现 对 同一 代码 区 的 写 保 
护 故 障 ， 则 运行 时 软件 可 以 重新 翻译 正 被 写 人 的 页 的 代码 ， 并 且 在 索引 表 中 为 每 个 翻译 块 保存 
初始 的 源 代码 〈 见 图 3-14) 。 然 后 作为 到 每 个 翻译 块 的 前 导 ， 翻 译 器 插入 比较 源 代码 的 当前 版 本 
和 源 代码 的 初始 索引 表 版 本 的 检查 代码 。 接 着 就 可 以 关闭 对 有 问题 的 页 的 写 保 护 了 。 只 要 前 导 
的 检查 代码 发 现 没 有 改变 源 代 码 (并且 在 伪 自 修改 代码 的 情况 下 ) ， 那 么 就 可 以 继续 执行 翻译 的 
代码 。 这 种 方法 使 速度 减 慢 〈 至 少 由 于 两 个 因素 中 的 一 个 ， 因 为 代码 比较 是 耗 时 的 ) ， 但 是 它 仍 
然 比 重复 保护 故障 、 解 释 和 重新 翻译 快 得 多 。 

一 个 可 能 更 快 的 选择 就 是 使 前 导 代码 成 为 一 个 独立 的 块 ， 它 可 以 从 其 相应 的 翻译 代码 块 来 
被 链接 和 解 开 (Dehnert 等 2003 ) 。 紧 接 在 一 个 写 保护 故障 之 后 ， 运 行 时 软件 链接 前 导 代 码 ， 而 
关闭 对 被 修改 页 的 写 保护 。 下 一 次 再 进入 可 能 被 修改 的 代码 时 ， 执 行 检查 代码 ， 并 且 ， 如 果 发 现 
没有 修改 源 代码 ， 则 解 开 前 导 代码 并 重新 启用 写 保护 。 用 这 种 方法 ,检查 只 有 在 第 一 次 执行 可 能 
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被 修改 的 代码 并 随后 发 生 写 保护 故障 时 才 被 执行 。 然 而 ， 当 执行 写 的 代码 与 被 修改 的 在 同一 页 
时 ， 继 续 向 前 进行 就 会 出 现 问 题 。 亦 即 ， 代 码 会 反复 陷阱 ， 失 去 写 保护 的 能 力 ， 稍 后 发 现 源 代码 
区 没有 被 修改 ， 就 重新 启动 写 保护 ， 然 后 修改 源 代码 区 ， 从 而 导致 男 一 个 陷阱 。 如 果 源 代码 可 以 
在 比 页 更 细 的 粒度 上 被 写 保护 ， 如 下 节 所 述 ， 那 么 就 可 以 降低 发 生 这 种 情况 的 概率 。 在 任何 情况 
下 ， 总 是 可 以 用 上 一 段 中 给 出 的 较 慢 方 法 作为 退路 的 。 


| | 运行 时 内 存 
客户 机 内 存 | | 
当 执 行 翻译 时 复制 


3 Í 
Maz 3777 comnssesvevetdies | eres ced dcade OR áin snaa “S i 
源 代 码 N 


”和 否 - 跳 转 到 运行 时 
匹配 ? b PE E EE 


图 3-14 通过 动态 检查 处理 伪 自修 改 代 码 


细 粒 度 写 保护 

到 目前 为 止 ， 我 们 所 考虑 的 基本 的 写 保护 方法 都 是 在 页 的 粒度 上 保护 源 代码 区 域 ， 如 果 有 
一 个 向 页 面 的 写 操作 ， 那 么 就 会 从 代码 cache 中 清除 所 有 由 那个 源 代码 页 中 的 指令 形成 的 翻译 。 
对 这 种 方法 的 一 个 改进 就 是 使 用 软件 在 一 个 较 细 的 粒度 上 跟踪 源 代码 块 (Dehnert 等 2003 ) 。 对 
于 包含 翻译 源 指令 的 每 一 页 ， 运 行 时 软件 可 以 维护 一 个 较 细 粒度 的 保护 表 ， 每 页 包含 一 个 写 保 
护 位 掩 码 。 页 掩 码 的 每 一 位 与 页 的 一 个 小 区 域 相 关 ， 如 128 字 节 。 之 后 ， 当 翻译 代码 时 ， 翻 译 器 
会 根据 它 翻译 的 源 指令 来 设置 掩 码 中 的 位 。 如 果 一 个 特殊 的 页 中 包含 代码 和 数据 的 组 合 ， 那 么 
任何 只 能 容纳 数据 的 区 域 (在 128 字 节 的 粒度 ) 就 不 会 设置 它们 的 细 粒 度 写 保护 位 。 当 写 人 一 
个 源 代 码 页 导致 了 到 运行 时 软件 的 陷阱 时 ， 运 行 时 软件 可 以 取 回 对 给 定 页 的 细 粒 度 写 保护 掩 码 ， 
并 且 将 故障 地 址 与 位 掩 码 中 的 位 相 比较 。 例 如 ， 如 果 故 障 写 是 对 一 个 只 能 容纳 数据 的 区 域 进行 
的 ， 那么 将 不 设置 对 那个 区 域 的 写 保护 位 ， 而 且 也 不 必 清 除 被 翻译 的 指令 。 当 写 和 人 细 粒 度 代 码 区 
域 时 〈 通 过 使 用 索引 表 来 跟踪 与 每 个 细 粒 度 区 域内 的 指令 相关 的 翻译 块 ) ， 较 细 粒 度 位 掩 码 也 可 
以 用 来 减少 被 清除 的 翻译 。 
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可 靠 的 自修 改 代码 

对 于 那些 可 靠 的 自修 改 代码 经 常 出 现 的 场合 ， 二 进 制 翻译 器 避免 写 保护 故障 的 一 种 方法 就 
是 通过 识别 习惯 用 语 来 删除 自修 改 代码 。 亦 即 ， 翻 译 器 代码 识别 出 通常 发 生 自 修改 代码 的 场景 
并 调用 特定 的 翻译 。 例 如 ， 自 修改 代码 可 以 用 来 写 包含 于 一 个 内 部 循环 中 的 指令 的 立即 数 域 并 
且 执 行 这 个 循环 。 这 在 图 3-15a 中 作 了 说 明 ， 这 里 IA-32 立即 数 加 法 指令 的 立即 域 常 被 修改 。 这 
种 情况 可 以 通过 将 它 转化 为 等 价 的 数据 区 域 读 / 写 操作 来 处 理 。 在 图 3-15b 中 ， 立 即 数 加 法 指令 
被 翻译 成 从 源 代码 取 回 立即 数 域 的 一 条 加 载 指令 (从 翻译 代码 的 角度 看 是 一 个 数据 区 域 )， 后 跟 
一 个 使 用 寄存 器 的 值 而 不 是 立即 数 的 加 法 指令 。 

在 另 一 种 情况 下 ， 一 个 给 定 的 源 代 码 区 域 仅 能 以 少数 几 种 不 同 的 方式 被 修改 。 这 发 生 在 一 
些 设备 独立 的 驱动 中 ， 驱 动 本 身 写 了 一 段 依赖 于 实现 的 代码 并 且 执 行 它 。 在 这 些 情况 下 ， 运 行 时 
软件 可 以 保存 各 种 各 样 的 源 代 码 版 本 及 相应 的 翻译 代码 。 然 后 当 探 察 到 代码 修改 时 ， 运 行 时 软 
件 可 以 将 被 修改 的 源 代 码 与 保存 的 源 代码 版 本 相 比较 。 如 果 发 现 相 匹配 ， 可 以 重新 取 回 并 使 用 
相应 的 被 保存 的 翻译 。 这 种 方式 仍然 会 导致 显著 的 开销 ， 但 是 它 至 少 避免 了 反复 的 重新 翻译 。 


abel: add “%eax, 0x123456 ;add immediate 
a) 一 条 IA-32 立即 数 加 法 指令 


Iwz r29, label+i(r2) ;r2 points to the IA32 memory image 
add r4,r4,r29 ¿r4 contains %eax 


b) PowerPC 翻译 ， 立 即 数 从 源 代码 的 内 存 映像 中 加 载 
3-15 ”翻译 一 条 包含 经 常 被 修改 的 立即 域 的 指令 


保护 运行 时 软件 的 内 存 

因为 运行 时 软件 (包括 代码 和 数据 ) 与 客户 机 应 用 软件 共享 一 个 地 址 空间 ， 所 以 必须 保护 
运行 时 软件 以 免 受 客 户 机 应 用 软件 的 影响 。 例 如 ， 如 果 被 仿真 的 程序 因为 程序 缺陷 (bug) 或 者 
故意 试图 访问 运行 时 软件 驻 留 的 地 址 空间 内 的 一 个 区 域 ， 那 么 就 应 报告 为 与 被 仿真 应 用 有 关 的 
内 存 故 障 。 为 了 维护 兼容 性 并 给 出 正确 的 结果 , 不 应 该 允许 客户 机 程序 读 、 写 运行 时 软件 的 内 存 
区 域 并 继续 运行 。 

如 果实 现 一 个 带 有 保护 检查 的 软件 转换 表 (图 3-6)， 那 么 作为 翻译 过 程 的 一 部 分 可 以 很 容 
易 发 现 这 种 访问 违例 。 运 行 时 软件 将 访问 权限 维护 在 内 存 映像 中 ， 因 此 运行 时 软件 本 身 得 到 了 
保护 。 尽 管 这 种 方式 是 有 效 的 ， 但 它 相 当 慢 。 

在 Omniware 虚拟 机 (Lucco, Sharp 和 Wahbe 1995; Wahbe 等 1993) 中 使 用 了 一 种 高 性 能 的 解 
决 方案 。 在 这 个 系统 中 ， 底 层 的 主机 硬件 被 用 于 地 址 转换 (如 图 3-9) ， 但 是 保护 检查 是 通过 软件 实 
现 的 。 为 了 改善 软件 保护 检查 的 效率 ， 客 户 机 数据 和 代码 被 分 成 大 小 为 2 的 寡 的 段 。 通 过 依靠 这 样 
的 段 ， 检 查 可 以 通过 一 个 单独 的 移 位 〈 提 取出 段 地 址 位 ) 和 比较 来 高 效 地 完成 。 在 任意 给 定 的 时 间 
内 只 要 有 一 个 数据 段 是 活 牙 的 ， 那 么 当前 可 访问 段 的 地 址 位 可 以 被 保存 于 一 个 主机 寄存 器 中 ， 这 可 
以 加 快 比较 过 程 。 此 外 ， 通 过 分 析 程 序 的 控制 流 ， 可 以 采用 类 似 于 高 级 语言 虚拟 机 中 使 用 的 减少 空 
指针 和 数组 边界 检查 的 优化 (6.6.2 节 )。 这 大 大 地 降低 了 开销 ， 据 报导 大 约 可 以 降低 总 开销 的 
10% (有 时 更 少 )。 尽 管 这 一 技术 保护 了 运行 时 软件 免 受 客户 机 所 做 的 越界 访问 , 但 是 强制 段 大 小 
为 2 的 窒 会 损害 内 在 兼容 性 ， 这 是 由 于 对 本 地 平台 上 不 存在 的 内 存 地 址 空间 施加 了 限制 。 
, 在 Dynamo 系统 中 (Bala, Duesterwald 和 Banarjia 2000)， 采用 一 种 用 底层 硬件 来 实现 地 址 
转换 和 保护 检查 的 方法 。 在 这 种 方法 中 ， 运 行 时 软件 负责 调用 适当 的 主机 操作 系统 例 程 来 设置 
内 存 保 护 。 执 行 被 分 成 两 种 模式 。 在 仿真 模式 下 执行 被 翻译 的 客户 机 代码 ， 在 其 他 时 候 包 括 当 二 
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进 制 翻 译 器 正 生成 代码 时 ， 虚 拟 机 处 于 运行 时 模式 。 只 有 当 虚 拟 机 处 于 仿真 模式 时 ， 运 行 时 软件 
的 代码 和 数据 才 必 须 爱 翻译 代码 的 保护 。 因 此 ， 当 处 于 仿真 模式 和 运行 时 模式 时 ， 内 存 保护 应 该 
有 所 不 同 。 
运行 模式 ”仿真 模式 


Ex N 运行 代码 






. 代码 cache R/W Ex 代码 cache 


4 N ¢ > N a Dt 


MW RW | 客户 机 数据 


， 
图 3-16 使 用 被 高 速 缓存 的 翻译 代码 的 内 存 保护 设置 。 左 边 是 
运行 时 模式 的 保护 而 右边 则 是 仿真 模式 的 保护 

图 3-16 说 明了 在 运行 时 模式 和 仿真 模式 下 的 内 存 保 护 。 在 运行 时 模式 下 ， 运 行 时 软件 代码 
是 可 执行 的 ; 运行 时 软件 的 数据 结构 全 部 具有 可 读 和 /或 可 写 的 许可 。 代 码 cache 是 可 以 读 / 写 
的 ， 因 为 在 翻译 过 程 中 它 必须 被 访问 和 修改 。 在 仿真 模式 下 ， 所 有 的 运行 时 软件 数据 结构 都 不 可 
访问 而 代码 cache 只 能 执行 ; 仅 有 在 客户 机 内 存 映 像 中 的 数据 可 以 被 访问 。 

为 了 改变 基于 模式 的 保护 ， 运 行 时 软件 使 用 系统 调用 ， 如 Linux 的 mprotect( ) ， 在 运行 时 
模式 切换 到 仿真 模式 之 前 ， 将 运行 时 软件 的 数据 和 代码 的 权限 改 成 不 可 访问 而 代码 cache 则 只 可 
执行 。 当 控制 回 到 运行 时 软件 时 ， 可 以 重新 建立 读 / 写 权限 。 这 给 试图 跳 转 或 分 支 到 运行 时 软件 
区 域 的 仿真 软件 带 来 了 问题 。 作 为 解释 和 /或 二 进 制 翻译 过 程 的 一 部 分 ， 将 检查 这 种 跳 转 或 分 支 。 
在 解释 过 程 中 ， 解 释 程序 可 以 显 式 地 检查 分 支 和 跳 转 的 目的 地 。 对 于 翻译 代码 ， 翻 译 代码 块 内 的 
所 有 分 支 和 跳 转 都 是 到 块 自 身 之 内 的 直接 地 址 。 所 有 可 能 离开 一 个 翻译 代码 块 的 间接 跳 转 和 分 

13) 支 都 是 通过 翻译 块 中 的 映射 表 或 链接 指针 来 完成 的 。 这 些 都 由 运行 时 软件 来 填写 ， 并 且 在 填写 
时 可 以 检查 这 些 地 址 。 . 

这 种 方式 是 有 效 的 ， 但 是 只 要 有 模式 切换 ， 就 会 有 较 高 的 开销 。 不 过 ， 如 果 代 码 缓存 是 有 效 
的 〈 通 常 如 此 ) ， 那 么 在 翻译 完 客户 机 指令 工作 区 后 ， 就 很 少 会 有 这 种 开销 了 。 

然而 ， 如 果 客 户 机 寄存 器 被 映射 到 主机 内 存 空间 ， 就 会 出 现 另 一 种 保护 问题 。 通 常 ， 寄 存 器 
被 内 存 加 载 和 存储 指令 保护 ， 因 为 它们 处 于 自己 独立 的 、 小 地 址 空间 内 ， 并 且 只 能 直接 通过 寄存 
器 指示 者 来 访问 。 不 过 ， 如 果 客 户 机 寄存 器 上 下 文 块 被 映射 到 主机 内 存 空 间 ， 在 被 翻译 的 客户 机 
代码 中 的 一 个 不 可 靠 的 加 载 或 存储 就 可 能 访问 觅 射 到 内 存 中 的 寄存 器 。 如 果 发 生 这 种 情况 ， 所 
产生 的 行为 将 与 本 地 客户 机 程序 的 行为 不 同 ， 而 结果 将 可 能 是 不 可 信 的 。 图 3-16 中 并 没有 给 出 
观 射 到 内 存 的 寄存 器 区 域 ,但 是 它 会 是 存在 于 客户 机 常规 内 存 映像 之 外 的 读 / 写 区 域 。 

将 客户 机 寄存 器 映射 到 内 存 常 常 是 难以 避免 的 。 如 果 源 寄存 器 的 数目 比 目 标 寄存 器 的 数目 
多 ,实际 上 就 非得 这 样 映射 不 可 。 这 也 是 相同 -ISA 优化 的 一 个 重要 特征 ( 见 4.7 节 ) ， 其 中 某 些 








tH #2 GF PLM 69 





优化 会 给 寄存 器 加 “ 压 ”， 导 致 寄存 器 内 容 被 洲 出 到 内 存 。 

在 此 ， 区 别 内 在 兼容 性 和 外 在 兼容 性 是 重要 的 。 对 于 内 在 兼容 性 ， 必 须 有 某 种 方式 保护 映射 
到 内 存 的 寄存 器 ， 而 不 考虑 客户 机 软件 试图 做 什么 。 一 种 解决 方案 是 依靠 加 载 和 存储 的 软件 保 
护 检查 来 完成 〈 在 本 节 中 较 早 讨论 的 ) 。 对 于 外 在 兼容 性 ， 一 种 解决 方案 就 是 保证 给 定 程 序 没有 
会 引起 加 载 或 存储 访问 外 部 声明 的 程序 数据 结构 的 错误 。 人 们 通常 希望 程序 满足 这 一 特性 ， 但 
是 它 对 正确 操作 的 要 求 意味 着 不 能 实现 内 在 兼容 性 。 


3.5 指令 仿真 


仿真 处 于 进程 级 虚拟 机 的 中 心 ， 并 且 仿 真 引 莒 可 以 有 自己 相对 复杂 的 结构 。 指 令 仿真 是 第 2 章 的 
主题 。 解 释 和 二 进 制 代码 翻译 都 已 详细 讨论 过 了 。 在 这 一 节 中 ， 我 们 讨论 将 指令 仿真 集成 到 一 个 完整 
的 进程 虚拟 机 的 过 程 。 我 们 侧重 讨论 高 性 能 的 仿真 引擎 ， 而 低 性 能 版 本 则 是 其 相对 简单 的 子 集 。 

为 得 到 最 优 的 性 能 ,仿真 引 葡 道 常 组 合 了 多 种 仿真 方法 ， 例如， 将 解释 和 二 进 制 翻译 结 合 
来 。 在 初始 化 之 后 ， 仿 真 引 擎 开始 解释 源 二 进 制 代码 ， 并 且 稍 后 可 以 转变 为 翻译 甚至 是 被 优化 的 
翻译 。 下 一 节 撒 述 所 涉及 的 重要 的 性 能 权衡 ， 而 后 续 节 则 描述 了 高 性 能 仿真 引擎 的 整体 结构 。 


3.5.1 性 能 权衡 


为 了 理解 被 典型 用 于 高 性 能 仿真 的 基本 架构 ， 首 先 考 虑 各 种 仿真 方法 之 间 的 关键 性 能 权衡 
是 重要 的 。 这 种 权衡 在 上 一 章 结 束 时 被 提出 ， 对 特定 的 仿真 技术 (如 翻译 或 解释 ) 来 说 ， 它 包 
括 启动 时 间 对 稳 态 性 能 的 权衡。 

启动 时 间 是 指 在 仿真 之 前 将 一 种 形式 的 代码 转化 为 另 一 种 形式 的 代码 所 花费 的 一 次 性 代价 。 例 
如 ， 将 初始 二 进 制 代码 转化 成 中 间 解 释 形式 ， 接 着 全 部 二 进 制 翻译 成 目标 SA。 在 相同 -ISA 动态 优 
化 器 中 ， 这 种 转化 可 以 由 不 带 有 转化 成 不 同 ISA 的 代码 优化 组 成 ,但 是 这 样 做 会 有 一 个 启动 时 间 代 
价 。 另 一 方面 ， 简 单 的 译 码 - 分派 解释 不 需要 初始 转化 ， 因 此 具有 和 零 启动 时 间 的 效果 。 

稳 态 性 能 最 好 表示 为 指令 被 仿真 的 平均 速度 ， 如 仿真 每 条 指令 所 需 的 时 间 ， 仿 真是 通过 解 
释 还 是 通过 翻译 实现 。 

仿真 一 条 指令 N 次 的 整体 时 间 表 示 为 S+ NT， 其 中 $ 是 对 于 给 定 指令 的 一 次 性 启动 开销 ， 
而 T 了 是 处 于 稳 态 时 每 次 仿真 所 需要 的 时 间 。 图 3-17 中 的 例子 说 明了 关键 的 性 能 权衡 。 二 进 制 翻 
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N- 仿真 的 次 数 
图 3-17 ”解释 和 二 进 制 翻译 之 间 的 枚 衡 
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译 的 启动 时 间 是 1000 个 周期 而 T 是 每 条 指令 2 个 周期 。 对 于 解释 ， 启 动 时 间 是 0 周期 而 T 是 每 
条 解释 指令 20 个 周期 。 二 进 制 翻译 的 总 仿真 时 间 以 1000 为 起 点 并 且 增 长 非常 缓慢 。 另 一 方面 ， 
解释 时 间 起 初 比 翻译 时 间 小 得 多 ， 随 后 稳定 地 攀升 ， 直 到 它 最 终 超过 翻译 时 间 。 亦 即 ， 有 一 个 性 
能 跨越 点 。 如 果 N 很 小 ， 那 么 解释 需要 的 时 钟 周期 比较 少 。 如 果 N 很 大 ， 那 么 二 进 制 翻译 整体 
上 更 好 。 在 这 个 例子 里 ， 当 N 接近 55 时 ， 出 现 平衡 点 ; 也 就 是 说 ， 如 果 NN 小 于 55， 解释 的 整体 
性 能 会 更 好 ; 如 果 NN 大 于 55， 那 么 值得 执行 二 进 制 翻译 。 


3. 5.2 分 阶段 的 仿真 


基于 刚刚 描述 的 性 能 权衡 ,一 个 典型 的 高 性 能 仿真 架构 实现 了 多 种 仿真 方法 并 且 分 阶段 地 
应 用 它们 (Hansen 1974; Hélzle 和 Ungar 1996) 。 图 3-18 说 明了 一 种 包含 解释 器 和 二 进 制 翻译 器 
的 分 阶段 仿真 架构 。 这 些 是 由 运行 时 的 仿真 管理 器 来 控制 的 。 

当 要 仿真 一 个 特定 的 程序 时 ， 很 难事 先 预测 程序 中 的 指令 会 被 仿真 多 少 次 ， 所 以 就 很 难 知 
道 哪 种 仿真 方法 是 最 优 的 。 因 此 ， 如 图 3-18 所 示 ， 仿 真 过 程 通过 使 用 一 种 低 启 动 开 销 的 方法 
(如 解释 ) 来 开始 仿真 代码 块 。 随 着 解释 继续 进行 ,剖析 数据 被 收集 。 (在 第 4 章 中 将 更 加 详细 
地 描述 剖析 ) 。 其 中 ， 这 个 数据 指示 一 个 特定 指令 或 指令 块 已 被 仿真 的 次 数 。 在 这 个 数字 达到 某 
个 门限 级 别 时 〈 如 50 次 ) ， 仿 真 管理 器 本 质 上 预测 这 块 指令 很 可 能 在 将 来 经 常 被 仿真 ， 接 着 它 
调用 二 进 制 翻译 器 执行 完全 的 二 进 制 翻译 。 之 后 ， 通 过 翻译 后 的 代码 来 仿真 这 块 代码 。 甚 至 可 以 
更 进一步 地 设想 : 如 果 一 个 翻译 块 经 常 被 使 用 ， 那 么 它 可 以 被 选择 做 额外 的 优化 ， 这 在 开头 可 能 
会 较 耗 时 间 ， 但 是 所 获得 的 较 高 稳 态 性 能 要 比 补偿 所 花费 的 额外 优化 时 间 还 要 多 。 





图 3-18 一 个 在 解释 和 二 进 制 翻译 之 间 转 换 的 仿真 架构 ， 取 决 于 性 能 权衡 。 
实 线 表示 数据 传递 ， 虚线 表示 在 仿真 引擎 内 部 的 控制 流 


图 3-19 更 加 详细 地 显示 了 仿真 过 程 。 解 释 器 被 使 用 直到 遇 到 一 条 分 支 或 跳 转 ， 而 在 那 一 点 
要 访问 源 到 目标 的 PC 映射 表 【〔 见 图 2-28 ) 。 如 果 PC 在 表 中 命中 ， 那 么 下 一 代码 块 已 经 被 翻译 
过 ， 接 着 控制 被 转移 到 代码 cache。 因 此 ， 执 行 继续 停留 在 代码 cache 中 ， 可 能 沿 着 许多 被 链接 
的 翻译 块 直到 到 达 一 个 没有 向 前 链接 的 块 。 在 那 一 点 控制 被 转移 回 仿真 引擎。 当 PC 在 表 中 缺失 
时 ， 检 查 剖 析 数 据 库 看 下 一 个 动态 基本 块 是 否 是 “ 热 的 ”， 也 就 是 说 它 已 被 执行 的 次 数 是 否 大 于 
事先 预 设 的 门限 。 如 果 不 是 ， 更 新 剖析 数据 接着 将 控制 传 回 解释 器 。 否 则 ， 翻 译 下 一 个 动态 基本 
块 并 放 入 代码 cache 中 。 如 果 代 码 cache 满 了 ， 则 调用 cache 管理 器 来 释放 空间 。 在 把 一 个 最 近 被 
翻译 的 块 放 人 到 cache 之 前 ， 更 新 映射 表 并 建立 和 代码 cache 中 现 有 的 块 的 链接 ( 见 2.6.3 节 )。 
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如 果 解 释 器 或 者 翻译 cache 遇 到 一 条 系统 调用 指令 ， 控 制 将 转移 回 运行 时 软件 并 且 调 用 操作 
系统 仿真 器 。 当 控制 最 终 返回 到 仿真 引擎 时 ， 它 做 了 一 个 PC 映射 表 查 找 并 且 继 续 进 行 仿真 。 如 
果 翻 译 代码 产生 了 一 个 例外 条 件 ， 一 个 主机 操作 系统 信号 被 传递 到 运行 时 软件 并 且 将 控制 转移 
到 例外 仿真 器 。 类 似 地 ， 如 果 解 释 器 遇 到 一 个 例外 条 件 ， 则 控制 被 转移 到 例外 仿真 器 。 






从 异常 仿真 器 返回 
从 OS 仿真 器 返回 
启动 的 剖析 数据 
否 





解释 直到 在 映射 表 中 缺失 “| 检查 剖析 数据 库 - 
分 支 或 距 转 查找 目标 是 热点 块 吗 ? 
FABER os 调用 命中 是 
PEREINTA 非 链接 块 PEM 
调用 例外 


DAR 。 陷 阱 (通过 信号 ) a 多 用 
< cache 管理 器 
cache 中 的 
EH os 代码 cache 空间 可 用 
仿真 器 
0S 调 用 人 是 
与 其 他 块 建立 

j 在 映射 表 中 

| 


图 3-19 仿真 引擎 的 执行 流程 


刚刚 描述 过 的 分 阶段 仿真 策略 从 解释 开始 ， 接 着 转 到 基本 块 的 二 进 制 翻译 ， 如 前 一 章 所 述 。 
为 了 翻译 和 优化 ， 一 个 普通 的 附加 优化 将 把 若干 基本 块 组 合成 更 大 的 单元 。 这 类 优化 中 常 使 用 
的 翻译 单元 是 超 块 ， 它 是 一 块 有 一 个 单 人 口 但 是 可 能 有 几 个 出 口 的 代码 。 超 块 和 超 块 优化 在 4.3 
节 中 讨论 。 本 章 中 讨论 的 技术 对 基本 块 和 诸如 超 块 这 样 的 更 大 的 翻译 单元 都 起 作用 。 三 个 层次 
的 仿真 ， 即 解释 、 基 本 块 的 二 进 制 翻 译 和 有 具 有 优化 的 二 进 制 翻译 (在 超 块 上 ) ， 提 供 了 许多 分 阶 
段 仿真 策略 的 可 能 性 。 例 如 ， 这 里 是 两 种 普遍 使 用 的 策略 。 
° 带 有 简单 剖析 的 解释 。 当 达到 门限 时 ， 产 生 和 优化 保存 于 代码 cache 中 的 超 块 。 这 种 方式 
用 在 FX! 32 系统 中 (Hookway 和 Herdeg 1997)、Aries 系统 (Zheng 和 Thompson 2000 ) 
以 及 HP Dynamo 的 相同 -ISA 优化 器 (Bala, Duesterwald 和 Banerjia 2000), 
。 跳 过 解释 阶段 而 在 动态 基本 块 上 立即 执行 简单 的 二 进 制 翻译 ; 翻译 包括 在 基本 块 上 收集 
剖析 数据 的 代码 。 当 基本 块 变 热 时 ， 形 成 超 块 并 优化 超 块 。 这 种 方法 应 用 于 Sun Wabi 系 
统 (Hohensee, Myszewski 和 Reese 1996 ) IA-32-EL 系统 (Baraz 等 2003) 和 Mojo 的 相 
同 -ISA 优化 器 (W. -K. Chen 等 2000) 。 


3.6 例外 仿真 
例外 条 件 可 以 出 现在 指令 执行 中 的 几乎 任意 时 刻 ， 这 经 常 是 不 可 预测 的 。 例 外 的 正确 处 理 
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是 程序 执行 的 直接 结果 并 且 由 一 条 特定 的 指令 产生 。 中 断 是 一 个 外 部 事件 ， 例 如 ， 由 IO 系统 引 
起 ， 并 且 与 特殊 的 指令 无 关 。 

我 们 使 用 例外 精确 性 的 传统 定义 ， 即 一 个 例外 是 精确 的 ， 如 果 (1) 已 执行 完 所 有 在 故障 指 
令 之 前 的 指令 ，(2) 没有 执行 任何 一 条 在 故障 指令 之 后 的 指令 ， 和 (3) 不 失 一 般 性 ， 没 有 执行 
故障 指令 。( 如 果 ISA 语义 指示 应 该 执行 它 ， 那 么 可 以 很 容易 地 调整 。 我 们 假设 源 和 目标 ISA 
中 所 有 的 例外 被 定义 为 精确 的 。 在 外 部 中 断 的 情况 下 ， 我 们 定义 精确 性 和 大 约 中 断 发 生 时 正 被 
执行 的 指令 有 关 。 

对 于 一 个 进程 虚拟 机 实现 ， 我 们 进一步 将 例外 分 为 如 下 两 种 附加 类 别 。 

ABI 可 见 的 一 一 这 些 是 在 ABI 层 上 可 见 的 例外 。 它 们 包括 所 有 通过 操作 系统 信号 返回 到 应 用 
的 例外 ; 即 它们 是 源 操作 系统 和 用 户 级 ISA 的 函数 。 例 如 ， 如 果 客 户 机 操作 系统 产生 一 个 对 内 存 
保护 故障 的 信号 ， 那 么 陷阱 就 变 成 ABI 可 见 的 。 这 种 类 型 也 包括 那些 引起 应 用 终止 (由 客户 机 
操作 系统 定义 ) 的 例外 ， 因 为 在 终止 点 需要 一 个 精确 的 应 用 状态 。 

ABI 不 可 见 的 一 一 没有 信和 号 且 当 例外 发 生 时 应 用 不 终止 ， 因 为 ABI 实质 上 不 知道 它 的 存在 。 
一 个 不 可 见 例外 的 例子 就 是 操作 系统 用 来 调度 的 时 钟 中 断 。 依 赖 于 主机 操作 系统 支持 的 信号 ， 
页 故障 也 可 以 成 为 一 类 ABI 不 可 见 例外 。 


3.6.1 例外 检测 


作为 指令 执行 的 一 个 副产品 ， 陷 阱 是 比较 难处 理 的 例外 类 型 ， 我 们 首先 来 讨论 它们 。 在 指令 
仿真 过 程 中 ， 陷 阱 可 以 通过 两 种 方式 之 一 来 检测 。 第 一 ， 陷 阱 条 件 可 以 作为 指令 解释 例 程 的 一 部 
分 被 显 式 地 检查 。 例 如 ， 加 法 指令 引起 的 溢出 可 以 通过 显 式 地 比较 输入 操作 数 和 最 后 的 和 来 检 
测 。 我 们 称 之 为 解释 的 陷阱 检测 。 如 果 解 释 器 例 程 发 现 了 一 个 陷阱 条 件 ， 它 就 跳 转 到 运行 时 软件 
的 陷阱 处 理 器 。 第 二 ， 当 执行 一 条 仿真 代码 中 的 指令 时 ， 可 以 通过 主机 平台 硬件 来 检测 陷阱 条 
件 。 亦 即 ， 目 标 指 令 设 陷阱 是 因为 相应 的 正 被 仿真 的 源 指令 也 已 设 了 陷阱 。 如 果 有 一 个 主机 操作 
系统 支持 的 信号 匹配 了 陷阱 条 件 ， 那 么 这 个 信号 可 以 传递 给 运行 时 软件 的 陷阱 处 理 器 。 明 显 地 ， 
忽略 效率 问题 ， 第 一 种 方法 通过 解释 检查 总 是 可 以 实现 的 。 另 一 方面 ， 更 有 效 的 第 二 种 方法 是 依 
赖 于 源 和 目标 ISA 之 间 的 语义 匹配 ， 仿 真 过 程 的 细节 以 及 从 主机 操作 系统 得 到 的 支持 。 

对 主机 平台 来 说 ,为 了 支持 对 作为 仿真 副产品 的 例外 的 检测 ， 一 个 关键 要 素 就 是 主机 操作 
系统 的 信号 机 制 。 为 了 实现 这 种 方式 ， 在 初始 化 运行 时 软件 时 ， 应 该 登记 主机 操作 系统 支持 的 所 
有 例外 信号 。 然 而 ， 随 着 仿真 继续 进行 ， 如 果 客 户 机 应 用 恰好 通过 执行 系统 调用 登记 了 一 个 信 
号 ， 运 行 时 操作 系统 仿真 代码 中 途 阻止 这 个 系统 调用 ， 并 且 将 它 作为 一 个 “客户 机 登记 的 ” 信 
号 记录 在 表 中 。 

在 仿真 过 程 中 ， 当 发 生 一 个 引起 到 主机 操作 系统 的 陷阱 的 例外 时 ， 主 机 操作 系统 传递 适当 
的 信号 给 运行 时 软件 。 此 时 ， 运 行 时 软件 检查 客户 机 的 信号 表 看 客户 机 是 否 已 登记 了 这 个 信和 号 。 
如 果 已 登记 ,运行 时 软件 就 调整 客户 机 状态 使 得 客户 机 的 操作 系统 好 像 正 在 发 信号 ， 接 着 它 把 
代码 转移 到 客户 机 的 信号 处 理 代码 。 否 则 ， 运 行 时 软件 处 理由 信号 指示 的 陷阱 条 件 。 

有 三 种 情况 要 考虑 ， 它 们 取决 于 陷阱 条 件 的 特性 。 

1. 陷阱 条 件 在 主机 平台 上 也 是 ABI 可 见 的 。 在 这 种 情况 下 ， 会 调用 运行 时 软件 的 信号 处 理 
器 ， 并 且 它 可 以 像 刚 刚 描 述 的 那样 采取 适当 的 行动 。 

2. 陷阱 条 件 在 主机 平台 内 不 是 ABI 可 见 的 。 在 这 种 情况 下 ， 前 面 的 方法 就 不 起 作用 了 ; 而 
不 得 不 把 陷阱 条 件 的 显 式 检查 和 在 满足 陷阱 条 件 时 到 运行 时 软件 的 跳 转 一 起 放 在 仿真 代码 中 ， 
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即 必须 使 用 解释 的 陷阱 检测 。 

3. 陷阱 条 件 在 主机 ABI 中 是 可 见 的 ， 但 是 在 客户 机 ABI 中 却 不 是 。 在 这 种 情况 下 ， 可 能 会 
有 外 来 的 陷阱 。 在 此 ， 运 行 时 软件 的 陷阱 处 理 器 将 不 得 不 决定 陷阱 条 件 是 否 已 对 源 指令 是 可 
见 的 。 

在 某 些 情 况 下 ， 多 个 客户 机 陷阱 类 型 可 能 会 映射 到 一 个 主机 陷阱 类 型 。 例 如 ， 主 机 可 能 有 一 
个 覆盖 了 整数 和 浮 点 滋 出 的 单个 例外 条 件 ， 而 客户 机 对 这 两 种 溢出 却 可 能 有 不 同 的 例外 。 此 时 ， 
运行 时 软件 必须 检查 陷阱 指令 以 确定 报告 给 客户 机 的 例外 。 


3.6.2 中断 处 理 


某 些 中 断 可 能 是 ABI 可 见 的 ; 就 是 说 应 用 可 以 登记 某 些 中 断 条 件 的 信号 处 理 者 。 当 中 断 发 
生 时 ， 它 们 没有 必要 被 立即 处 理 ， 因 为 它们 不 与 任何 特殊 指令 有 联系 。 通 常 ， 有 一 个 可 以 接受 的 
响应 延迟 ， 在 此 期 间 ， 在 控制 转移 到 中 断 处 理 器 之 前 ， 被 仿真 的 应 用 可 以 进入 一 个 精确 的 状态 。 
典型 地 ， 在 这 个 可 接受 的 响应 延迟 之 内 ， 至 少 可 以 仿真 几 十 或 几 百 条 指令 。 

因为 运行 时 软件 已 登记 了 所 有 的 信号 ， 如 果 发 生 一 次 中 断 ， 信 和 号 首先 会 传递 给 运行 时 软件 。 
如 果 正 在 执行 解释 ， 则 当前 的 解释 例 程 在 运行 时 软件 把 控制 传递 给 客户 机 中 断 处 理 器 之 前 就 能 
结束 。 一 个 实际 的 中 断 响 应 延迟 通常 是 足够 长 的 ， 可 以 允许 一 个 解释 器 例 程 的 完成 。 

然而 ， 如 果 使 用 二 进 制 翻译 来 仿真 ， 情 况 就 更 加 复杂 了 。 当 发 生 中 断 并 且 信 号 传递 给 运行 时 
软件 时 ， 在 一 个 翻译 代码 块 内 的 执行 可 能 不 是 在 一 个 可 中 断 的 点 。 通 常 ， 当 翻译 代码 时 维护 索引 
表 ， 以 便 如 果 源 指令 设 有 陷阱 ， 则 对 运行 时 软件 来 说 就 可 能 给 陷阱 指令 提供 正确 且 精 确 的 状态 
( 稍 后 将 描述 这 些 机 制 ) 。 对 于 中 断 就 不 是 这 种 情况 了 ， 因 为 实质 上 每 条 指令 都 是 可 中 断 的 ， 并 
且 在 翻译 代码 的 任意 点 上 对 精确 状态 恢复 的 约 东 都 极其 有 限 。 

二 进 制 翻译 的 一 个 更 复杂 的 问题 就 是 当 运行 时 软件 把 控制 传递 给 链 在 一 起 的 翻译 块 时 ， 在 
控制 传递 回 运行 时 软件 之 前 会 有 一 段 任 意 长 的 时 间 。 例 如 ， 如 果 执 行 是 在 一 个 由 几 个 翻译 块 链 
在 一 起 的 循环 之 内 ， 在 离开 循环 之 前 可 能 会 过 去 一 段 非常 长 的 时 间 。 这 意味 着 可 能 不 得 不 采取 
特殊 的 步骤 来 提供 一 个 可 接受 的 中 断 响应 时 间 。 这 个 问题 可 概括 为 ， 当 一 个 中 断 信号 传递 到 运 
行 时 软件 时 ， 翻 译 的 代码 可 能 不 是 在 可 中 断 的 状态 。 然 而 如 果 运 行 时 软件 将 控制 传递 回 翻译 代 
码 并 且 “ 等 待 ”直到 代码 返回 运行 时 软件 〈 此 时 它 处 于 可 中 断 状态 ) ， 那 么 运行 时 软件 就 不 能 再 
假定 控制 在 要 求 的 中 断 响应 时 间 间 隔 之 内 。 

为 了 解决 中 断 响应 问题 ， 可 以 遵循 下 列 的 步骤 : (1) 当中 断 发 生 时 ， 一 个 信号 被 发 送 到 运 
行 时 软件 ， 并 且 控 制 从 当前 执行 的 翻译 代码 块 转移 到 运行 时 软件 。(2) 在 收 到 信号 之 后 ， 运 行 
时 软件 定位 当前 执行 的 翻译 块 ， 并 将 它 从 后 续 的 翻译 块 上 解 开 ， 从 而 消除 在 翻译 代码 块 内 链 式 
循环 的 可 能 性 ， 如 通过 重 写 在 当前 翻译 代码 块 末端 的 链接 ， 使 得 当 它 完成 时 跳 转 回 运行 时 软件 。 
(3) 在 接收 到 中 断 信号 的 那 一 点 ， 运 行 时 软件 将 控制 返回 给 翻译 的 代码 。(4) 当前 翻译 块 完成 ， 
然后 接着 跳 转 回 运行 时 软件 。(5) 运行 时 软件 处 理 中 断 。 注 意 这 种 方式 假设 翻译 块 有 两 个 性 质 : 
a 在 一 个 单独 翻译 块 内 没有 循环 ; b 在 每 个 翻译 块 末端 ， 目 标 代码 处 于 精确 的 可 中 断 状态 。 通 
常 在 二 进 制 翻译 系统 中 都 会 提供 这 些 假设 ， 并 且 不 会 对 翻译 器 施加 过 度 的 负担 ， 也 不 会 抑制 
性 能 。 


3.6.3 确定 精确 的 客户 机 状态 


在 发 现 例外 条 件 之 后 ， 和 运行 时 软件 必须 能 给 仿真 客户 机 进程 提供 适当 的 精确 状态 。 如 果 使 
用 解释 ， 这 是 相当 简单 的 ; 但 是 如 果 使 用 二 进 制 翻 译 ， 确 定 精确 状态 的 过 程 可 能 复杂 得 多 ， 尤 其 








121 














74 £3¢ 





是 如 果 翻 译 的 二 进 制 指令 已 被 重 排序 或 者 被 优化 。 下 面 一 小 节 讨 论 在 解释 和 简单 二 进 制 翻译 过 
程 中 的 精确 状态 恢复 ; 代码 重 排 和 优化 带 来 的 困难 将 在 下 一 章 中 讨论 。 

解释 

对 于 解释 ， 在 初始 的 程序 序列 中 指令 通常 一 次 一 条 地 被 仿真 。 因 此 ， 源 PC 随 着 解释 的 进行 
被 更 新 。 此 外 ， 在 每 条 指令 的 边界 更 新 正确 的 源 状态 〈 内 存 和 寄存 器 ) 。 例 如 ， 考 虑 前 面 图 2-4 
中 给 出 的 Add 解释 程序 代码 (这 里 在 图 3-20 中 重复 给 出 )。 当 执行 sum = sourcel + source2 语句 
时 ， 如 果 加 法 溢出 ， 可 以 通过 陷阱 来 发 现 。 在 解释 器 例 程 中 的 这 一 点 上 ， 源 PC 还 没有 被 更 新 并 
且 仍 然 指 向 (溢出 的 ) 整数 加 法 指令 。 结 果 寄 存 器 RT 没有 被 更 新 (如 果 由 陷阱 语义 指明 ， 它 可 
以 通过 运行 时 软件 的 信号 处 理 器 来 更 新 ) 。 

运行 时 软件 中 的 信号 处 理 器 将 有 一 个 目标 PC， 它 指向 解释 器 例 程 中 的 sum 语句 。 然 而 ， 运 
行 时 软件 的 信号 处 理 器 应 该 使 用 源 PC (在 解释 过 程 中 被 维护 ) 回 到 初始 的 源 代码 ， 以 找 出 陷阱 
发 生 时 正 被 仿真 的 源 指令 。 注 意 : 使 用 源 PC 维持 了 解释 器 代码 的 可 移植 性 ， 即 它 的 行为 没有 和 
解释 器 代码 的 特定 位 置 相 绑 定 。 


RT = extractCinst,25,5); 
RA = extractCinst,20,5); 
RB = extractCinst,15,5); 
sourcel = regs[RA]; 
source2 = regs[RB]; 
sum = sourcel + source2; 


If chalt || interrupt) goto exit; 

inst = code[PC]; 

opcode = extractCinst, 31,6); 

extended_opcode = extractCinst,10,10); 
routine = dispatch[opcode, extended_opcode]; 
goto *routine; 





FA 3-20 Add 解释 器 例 程 。 加 法 操作 过 程 中 的 溢出 可 能 发 生 陷阱 并 且 导 致 
一 个 信号 被 传递 到 虚拟 机 软件 。 源 PC 将 指向 陷阱 源 指令 

二 进 制 翻译 : 定位 程序 计数 器 

关于 二 进 制 翻译 ， 例 外 之 后 的 状态 恢复 是 从 确定 固执 指令 的 源 PC 开始 的 。 那 么 有 了 源 PC, 
则 就 可 以 恢复 其 余 的 精确 应 用 状态 了 。 在 这 一 小 节 中 ,我 们 集中 于 确定 陷阱 指令 的 源 PC。 

确定 陷阱 源 指令 的 PC 值 的 一 个 困难 就 是 当 陷 阱 发 生 时 ,运行 时 软件 拥有 翻译 目标 代码 的 
PC 而 不 是 源 PC。 然 而 和 解释 不 同 的 是 ， 二 进 制 翻译 通常 不 保存 源 PC 的 一 个 连续 被 更 新 的 版 本 。 
这 意味 着 必须 有 一 些 间 接 机 制 来 找 出 故障 指令 的 源 PC， 给 定 翻 译 的 目标 PC。 为 了 捕 提 到 相应 的 
源 指令 ， 在 索引 表 中 保存 与 PC 相关 的 信息 是 有 用 的 。 

为 了 恢复 精确 的 源 PC， 可 以 使 用 一 个 反 向 转换 索引 表 ( 见 图 3-21)。 反 向 转换 表 最 简单 的 
实现 包含 < 目标 PC， 源 PC > 对 ， 指 明 对 每 个 目标 PC 〈 即 在 翻译 二 进 制 代码 中 的 地 址 ) 其 相应 
的 被 翻译 的 源 PC。 然 后 给 定 陷阱 目标 指令 的 PC， 运行 时 软件 可 以 为 了 陷阱 指令 的 PC 而 扫描 这 
个 表 ; 当 它 发 现 一 个 匹配 时 ， 相 应 的 源 PC ( 序 偶 的 第 二 部 分 ) 就 可 用 了 。 

刚刚 描述 的 那 种 形式 的 表 有 两 个 无 效 性 。 第 一 ， 查 找 目 标 PC 可 能 需要 线性 扫描 表 。 第 二 ， 
表 会 相当 庞大 ; 因为 它 为 每 条 翻译 指令 保存 了 一 对 地 址 指针 ， 这 个 表 很 容易 比 翻 译 代码 大 。 如 果 
目标 PC 是 按照 连续 数字 的 顺序 ， 那 么 线性 扫描 可 以 用 二 元 查找 来 代替 。 对 于 某 些 代码 cache 管 
理 算法 ， 如 那些 使 用 FIFO 置换 的 ， 这 似乎 是 很 自然 的 情况 。 我 们 将 在 3.8.2 节 中 看 到 ，FIFO 置 
换 是 对 代码 cache 较 好 的 策略 之 一 。 
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翻译 代码 源 代码 






@) 信号 将 目标 PC 返回 给 运行 时 






找 出 相应 的 源 PC 


边 表 





运行 时 
查找 索引 表 










图 3-21 给 定 目标 PC， 找 出 陷阱 源 PC (1) 陷阱 发 生 ; (2) 信号 处 理 器 向 运行 时 软件 返回 目标 
PC。 运 行 时 软件 ; (3) 做 一 个 索引 表 查 找 ; (4) 找 出 引起 陷阱 的 相应 的 源 PC 


表 的 规模 可 以 通过 利用 目标 和 源 PC 的 局 部 性 来 降低 。 例 如 ， 可 以 将 PC 的 一 个 子 集 按 完 整 
长 度 保存 ， 而 其 他 的 则 表达 为 完整 长 度 版 本 的 有 限 增 量 。 每 个 翻译 块 开始 位 置 的 PC 被 完整 地 保 
存 ， 而 翻译 块 内 部 的 PC 则 是 相对 初始 PC 的 增 量 。 如 果 目 标 ISA 有 固定 长 度 的 指令 ， 可 以 作 进 
一 步 的 简化 。 在 这 种 情况 下 ， 索 引 表 只 需要 包含 通过 目标 PC 值 直接 访问 的 一 组 源 PC。 

如 果 一 条 给 定 的 目标 指令 对 应 于 多 条 源 指 令 ， 就 会 出 现 额 外 的 复杂 问题 ( 因此 目标 PC 对 应 
多 于 一 个 源 PC) 。 这 是 可 以 发 生 的 ， 例 如 ， 当 一 个 RISC ISA 被 映射 到 一 个 CISC ISA 时 。 两 条 
RISC 指令 ， 一 个 加 载 指令 和 一 个 ALU 指令 ， 可 以 被 翻译 成 一 个 单独 的 从 内 存 中 加 载 和 执行 
ALU 操作 的 CISC 指令 。 在 这 种 情况 下 ， 当 发 生 陷阱 时 ， 可 能 难以 确认 哪 条 源 指 令 是 发 生 例外 的 
(尽管 在 刚才 的 例子 中 不 是 这 种 情况 ) 。 当 翻译 代码 被 重新 安排 或 者 优化 以 至 于 目标 指令 以 与 相 
应 的 源 指令 不 同 的 程序 顺序 执行 时 ， 一 个 相关 的 复杂 问题 就 会 出 现 。 这 些 问 题 都 将 在 第 4 章 中 详 
细 讨 论 ; 简单 地 讲 ， 解 决 方法 就 是 从 识别 包含 陷阱 源 指令 的 翻译 块 开始 ， 然 后 将 控制 返回 给 运行 
时 软件 ， 它 可 以 分 析 和 /或 者 解释 初始 的 源 代码 以 挑选 出 正确 的 源 状 态 和 PC 值 。 

为 了 支持 所 需 的 运行 时 软件 分 析 〈 和 减少 索引 表 空 间 需 求 ) ， 索 引 表 可 以 按 翻译 块 来 组 织 ， 
每 个 块 有 一 个 表 项 。 这 个 表 项 中 保存 了 开始 的 目标 PC 连同 允许 重新 构建 完整 的 翻译 代码 块 的 足 
够 信息 。 参 见 图 3-22。 如 果 翻 译 块 是 连续 的 ， 这 个 信息 不 会 多 于 翻译 源 指令 的 计数 值 。 如 果 块 是 
不 连续 的 ， 那 么 一 系列 起 始 源 PC 和 计数 器 就 足够 了 ， 或 者 更 简单 ， 当 构成 初始 翻译 时 ， 将 使 用 初 
始 源 PC 和 控制 流 信息 ， 如 满足 条 件 的 分 支 和 /或 跳 转 目标 。 有 了 这 些 信 息 ， 运 行 时 软件 解释 源 代码 
以 识别 陷阱 源 指 令 。 为 了 优化 这 一 过 程 ， 可 以 采用 一 个 混合 的 索引 表 结 构 。 例 如 ， 如 果 同 一 个 目标 
指令 经 常设 陷阱 ， 那 么 它 相 应 的 源 PC 可 以 被 缓存 在 索引 表 中 以 避免 重复 的 分 析 和 解释 。 

二 进 制 翻译 : 寄存 器 状态 

在 执行 翻译 代码 的 过 程 中 发 生 例外 时 ， 必 须 恢复 正确 精确 的 寄存 器 状态 ， 就 像 它 在 初始 的 
源 代 码 中 一 样 。 在 这 一 小 节 ， 我 们 考虑 当 翻 译 代码 的 优化 级 别 较 低 时 可 以 采用 的 方法 。 特 别 的 ， 
假设 没有 进行 代码 重 排 并 且 没有 因为 优化 而 删除 寄存 器 状态 的 更 新 指令 。 另 外 ， 更 加 复杂 的 寄 
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存 器 恢复 方法 经 常 是 依赖 于 所 使 用 的 特定 优化 技术 的 ， 并 且 这 些 方法 的 讨论 被 推迟 到 第 4 章 ， 二 
进 制 代码 优化 将 在 那 一 章 中 被 深入 讨论 。 


翻译 代码 BRE 










信号 返回 目标 PC 
找 出 相应 的 源 PC 










查找 索引 表 Y 块 形成 信息 





找 出 源 代码 开始 信息 






图 3-22 ”使 用 优化 的 索引 表 来 找 出 陷阱 源 PC。(1) 陷阱 发 生 和 “(2) 一 个 信号 将 目标 PC 传递 给 运行 时 
软件 ; (3) 运行 时 软件 接着 执行 一 个 查找 以 找 出 陷阱 翻译 块 ; (4) 表 项 包含 足够 的 信息 以 允 
许 分 析 和 /或 者 源 代码 块 的 解释 ; (5) 找 出 对 应 于 陷阱 目标 PC 的 源 PC 


最 简单 的 情况 出 现在 仿真 器 使 用 一 致 的 源 到 目标 寄存 器 映射 时 ， 并 且 寄 存 器 状态 在 源 和 翻 
译 代码 序列 中 按 相同 的 顺序 更 新 。 使 用 一 个 一 致 的 寄存 器 映射 ， 我 们 的 用 意 是 特定 源 寄 存 器 被 
映射 的 位 置 (在 目标 寄存 器 或 内 存 中 ) 在 整个 仿真 中 保持 一 致 。 在 这 种 情况 下 ， 在 任何 一 点 源 
寄存 器 状态 都 可 以 从 目标 寄存 器 状态 来 恢复 。 l 

如 果 源 到 目标 寄存 器 映射 在 翻译 块 之 间 甚 至 内 部 是 不 同 的 ， 但 是 寄存 器 更 新 的 顺序 在 源 
和 目标 代码 中 是 相同 的 ， 这 时 会 发 生 一 种 略微 复杂 的 情况 。 在 这 种 情况 下 ， 对 于 翻译 代码 块 
的 索引 表 可 以 被 用 来 指明 应 该 怎样 恢复 寄存 器 映射 。 另 外 ， 和 陷阱 PC 的 识别 一 样 ， 可 以 从 翻 
译 块 的 开始 处 再 次 分 析 源 代码 ， 重 新 产生 当前 的 寄存 器 分 配 ， 和 用 来 恢复 正确 源 寄存 器 状态 
的 结果 信息 。 


二 进 制 翻译 : 内 存 状态 
内 存 状态 通过 存储 指令 来 改变 。 只 要 源 程 序 存储 指令 按照 初始 程序 的 顺序 被 全 部 仿真 ， 维 


护 精确 的 内 存 状态 就 相当 简单 了 。 另 外 ， 如 果 所 有 潜在 的 陷阱 源 指 令 以 相对 于 存储 指令 的 相同 
顺序 被 仿真 ， 那 么 在 陷阱 发 生 时 的 内 存 状 态 可 以 保证 与 被 恢复 的 源 PC 相 一 致 。 

如 果 代 码 被 重新 排序 ( 见 第 4 章 ) ， 内 存 存储 的 存在 限制 了 可 以 进行 的 代码 重 排 。 特 别 地 ， 
一 个 可 能 的 陷阱 指令 不 能 被 移动 到 在 初始 源 代码 中 跟 在 它 之 后 的 存储 指令 下 面 。 否 则 ， 如 果 被 
移动 的 指令 发 生 陷 阱 ， 由 于 内 存 已 经 被 重 写 ,因此 内 存 状态 将 不 可 恢复 。 当 然 ， 有 一 些 优化 
(或 者 硬件 ) 可 以 缓冲 内 存 存储 ， 但 是 我 们 将 对 这 些 技 术 的 讨论 推迟 到 稍 后 的 章节 。 
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另 一 方面 ， 如 果 陷 阱 指令 被 移动 到 存储 之 前 ， 那 么 对 运行 时 软件 的 陷阱 处 理 代 码 来 说 就 可 
EDE GERRI) 存储 指令 以 完成 存储 更 新 。 此 外 ， 因 为 它 与 代码 优化 方法 有 关 ， 这 一 ”上 7 
技术 的 细节 被 推迟 到 第 4 章 。 


3.7 操作 系统 仿真 


操作 系统 接口 是 AB 规范 的 一 个 关键 部 分 ， 就 像 用 户 级 指令 一 样 。 然 而 ， 因 为 一 个 进程 级 
虚拟 机 仅仅 需要 在 ABI 层次 上 维护 兼容 性 ， 它 没有 仿真 客户 机 操作 系统 代码 中 特有 的 指令 ; 而 
是 仿真 客户 机 操作 系统 调用 的 功能 或 语义 ,通常 是 通过 将 它们 转化 为 主机 操作 系统 的 操作 。 有 
两 种 重要 的 情况 要 考虑 ， 其 中 一 个 比 另 一 个 更 容易 实现 (尽管 两 个 都 不 容易 1) 。 在 第 一 种 情况 
下 ， 客 户 机 和 主机 操作 系统 是 相同 的 ; 如 它们 都 是 Linux 或 Windows。 男 外 一 种 比较 困难 的 情况 
发 生 在 主机 操作 系统 不 同 的 时 候 。 在 这 一 节 ， 我 们 讨论 这 两 种 情况 ， 从 比较 简单 的 “相同 操作 
系统 ”这 一 情况 开始 。 


3.7.1 相同 操作 系统 仿真 


运行 时 软件 通过 结合 主机 操作 系统 调用 和 由 运行 时 软件 本 身 执行 的 操作 来 仿真 客户 机 操作 
系统 。 在 下 面 儿 个 小 节 中 ,将 简要 地 讨论 基本 的 仿真 技术 。 

操作 系统 调用 转换 

当 客 户 机 和 主机 操作 系统 相同 时 ， 操 作 系 统 调用 仿真 的 问题 主要 是 匹配 操作 系统 的 接口 语 
法 。 客 户 机 需要 的 操作 系统 功能 在 主机 中 是 可 用 的 ， 但 是 有 必要 移动 和 格式 化 参数 和 返回 值 ， 在 
这 个 过 程 中 可 能 会 形成 一 些 数据 变换 。 例 如 ， 在 一 个 有 相对 较 少 寄存 器 的 平台 (如 IA-32) 上 运 
行 的 操作 系统 ， 可 以 在 常 驻 内 存 的 栈 中 传递 参数 ; 而 当 同 样 的 操作 系统 运行 在 一 个 带 有 许多 寄 
存 器 的 基于 RISC 的 平台 上 时 ， 则 可 以 在 寄存 器 中 传递 参数 。 此 时 ， 当 仿真 一 个 系统 调用 时 ， 参 
数 必须 从 栈 复制 到 寄存 器 中 ， 或 者 相反 。 这 个 包装 代码 在 图 3-23 中 说 明 ， 这 里 源 代码 被 翻译 成 
了 目标 代码 。 在 源 代码 中 的 系统 调用 被 转化 成 到 运行 时 软件 的 跳 转 (或 者 过 程 调用 ) 。 运 行 时 软 
件 于 是 执行 包装 代码 从 客户 机 复制 和 /或 变换 参数 到 主机 中 ， 然 后 在 主机 平台 上 做 相 适 宜 的 系统 
调用 。 一 种 可 选 的 、 更 快 的 实现 是 内 联 包装 代码 和 客户 机 系统 调用 。 


运行 时 


目标 代码 段 


包装 代码 
t_instl copy/convert argl 


二 进 制 翻译 jump runtine copy/convert arg2 


s_system_call X 
s_inst4 
s_inst5 


t_system_call X 
copy/convert return val 
return to t_inst4 





图 3-23” 当 客户 机 和 主机 操作 系统 相同 时 系统 调用 转化 


运行 时 软件 实现 的 操作 系统 功能 
并 非 所 有 的 客户 机 操作 系统 操作 需要 被 翻译 和 传递 给 主机 操作 系统 。 依 靠 运行 时 软件 的 实 
现 和 仿真 方法 ， 一 些 调用 可 以 直接 被 运行 时 软件 处 理 。 这 样 的 一 个 例子 就 是 客户 机 操作 系统 请 
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求 建立 一 个 信号 代表 这 个 被 仿真 的 客户 机 应 用 。 回 想 运 行 时 软件 ， 在 程序 仿真 开始 时 ， 为 主机 操 
作 系 统 支 持 的 所 有 信号 建立 信号 处 理 器 。 任 何 例外 条 件 首先 被 报告 给 运行 时 软件 以 便 它 可 以 提 
供 正确 的 状态 给 客户 机 进程 ， 并 且 保 证 运行 时 软件 总 是 保持 对 仿真 过 程 的 控制 。 如 果 应 用 试图 
通过 系统 调用 建立 一 个 信号 处 理 器 ， 运 行 时 软件 通过 在 索引 表 中 记录 应 用 的 信号 然后 返回 到 客 
户 机 进程 来 直接 处 理 这 个 调用 。 随 后 ， 如 果 客 户 机 应 用 将 要 触发 这 个 信号 ， 在 它 实 际 被 传递 到 应 
用 之 前 它 首先 传递 到 运行 时 软件 。 

运行 时 软件 直接 处 理 客户 机 操作 系统 调用 的 另 一 个 重要 领域 是 内 存 管理 。 因 为 它 实 质 上 控 
制 客 户 机 应 用 运行 的 进程 虚拟 机 ， 运 行 时 软件 负责 整个 内 存 管理 。 所 以 ， 比 如 说 ， 如 果 客 户 机 应 
用 通过 Linux brk ( ) 系统 调用 请 求 更 多 的 内 存 ， 那 么 ， 依 靠 运 行 时 软件 的 内 存 管 理 实现 ， 这 个 
调用 可 以 直接 被 运行 时 软件 处 理 而 不 必 传 递 到 主机 操作 系统 。HP Dynamo HARE (Bala, 
Duesterwald 和 Banerjia 1999) 和 Bruening 的 博士 论文 (Bmening 2004) 对 由 运行 时 软件 执行 的 
内 存 管 理 功 能 有 相当 全 面 的 讨论 。 另 外 一 个 例子 是 ， 如 果 运 行 时 仿真 例 程 通过 一 张 软件 表 来 检 
查 内 存 保护 〈 见 3.4.1 节 ) ， 并 且 客 户 机 应 用 产生 一 个 系统 调用 来 改变 内 存 访问 权限 ， 那 么 权限 
改变 应 该 在 运行 时 软件 层 通 过 修改 软件 映射 表 来 仿真 。 

严峻 的 班 实 

刚才 讨论 的 操作 系统 仿真 给 人 留 下 的 印象 是 它 是 一 个 相当 简单 的 过 程 。 实 际 上 它 并 不 是 这 
样 的 。 为 简化 我 们 的 讨论 ， 我 们 往往 集中 以 Linux 操作 系统 为 例 (尽管 其 他 版 本 的 UNIX 操作 系 
统 是 相似 的 ) Linx 操作 系统 主要 通过 包含 于 ABI 中 的 操作 系统 调用 和 信号 机 制 来 通信 。 即 使 
这 样 ， 前 述 的 讨论 也 被 简化 了 。 

在 用 户 应 用 程序 和 操作 系统 之 间 的 相互 通信 以 及 通信 机 制 本 身 ，Windows 操作 系统 都 要 复杂 
得 多 。 在 Bruening HBL (Bruening 2004) 和 相关 的 DynamoRIO 论文 中 (Bmening，Dyes- 
terwald 和 Amarasinghe 2001) ， 含 有 对 这 些 问 题 及 其 解决 方案 的 最 详尽 的 讨论 。 接 下 来 简单 总 结 
一 下 主要 问题 。 在 处 理 Windows it, 进一步 的 复杂 因素 是 文件 在 API 层 〈 即 在 调用 操作 系统 的 
用 户 库 层次 上 ) 而 不 是 调用 实际 发 生 的 地 方 一 一 ABI 层 。 

在 Windows 中 三 个 重要 的 “反常 ”用 户 / 内 核 通 信和 机 制 是 回调 、 蜡 步 过 程 调用 和 例外 。 像 
Bruening 描述 的 那样 ， 这 三 种 都 可 以 按 类 似 的 方式 来 仿真 ， 所 以 我 们 以 回调 为 重点 (图 3-24)。 
Windows 实质 上 是 一 个 事件 驱动 的 操作 系统 ; 例如 ， 鼠 标点 击 是 一 个 可 以 引起 输入 被 传递 到 用 户 
程序 的 事件 。 事 件 通过 消息 队列 被 传递 到 用 户 进程 (或 者 更 准确 地 说 是 用 户 线程 ); 在 执行 中 的 
某 一 点 ， 操 作 系 统 检 查 线程 的 消息 队列 。 如 果 发 现 一 个 事件 ， 它 就 调用 一 个 已 被 注册 用 来 处 理 这 
个 事件 的 用 户 例 程 (一 个 回调 处 理 器 )。 这 个 调用 保存 了 用 户 线程 的 上 下 文 并 且 初 始 化 一 个 新 的 
上 下 文 来 运行 回调 处 理 器 。 在 建立 回调 处 理 器 之 后 ，Windows 操作 系统 通过 一 个 特殊 的 分 派 例 程 
返回 到 用 户 模式 。 然 后 当 回 调处 理 器 完成 时 ， 它 通常 重新 进 人 操作 系统 内 核 ， 其 中 在 返回 到 初始 
用 户 程序 之 前 ， 要 对 另外 的 悬而未决 的 消息 做 出 检查 。 

在 进程 虚拟 机 中 实现 回调 的 一 个 挑战 是 维护 虚拟 机 的 运行 时 软件 全 局 控制 和 管理 回调 程序 
的 执行 。 首 先 ， 运行 时 软件 在 进入 回调 处 理 器 之 前 必须 获得 控制 。 这 是 通过 在 例 程 的 开始 处 放置 
一 个 跳 转 到 运行 时 软件 的 指令 来 修改 分 派 例 程 而 完成 的 。 在 那 一 点 ， 运 行 时 软件 可 以 保存 任何 
在 切换 到 处 理 器 过 程 中 操作 系统 没有 保存 的 状态 〈 如 在 DynamoRIO 系统 中 的 情形 )。 然 后 ， 为 
了 检测 从 回调 返回 ， 运 行 时 软件 查找 一 个 特殊 的 操作 系统 调用 (或 调用 一 个 将 控制 返还 给 操作 
系统 的 API 例 程 ) ; 在 那 一 点 ， 在 切换 回 初始 的 用 户 上 下 文 之 前 ， 它 能 够 恢复 任何 被 保存 的 运行 
时 软件 的 状态 。 
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. 用 户 进程 
调用 或 中 断 




















0s 内核 


用 户 进程 
在 队列 中 
找到 消息 


任意 系统 
调用 或 中 断 









OS 内 核 


在 队列 中 
找到 消息 





a) 在 消息 队列 包含 一 个 调用 回调 处 理 器 的 b) 在 回调 过 程 中 仿真 和 维护 控制 ， 运 行 时 软件 截取 
消息 时 的 典型 Windows 控制 流 进入 回调 处 理 器 以 及 来 自 回调 处 理 器 的 转移 


图 3-24 实现 Windows 回调 的 方法 


3.7.2 不 同 操作 系统 仿真 


尽管 与 指令 集 仿真 具有 一 些 表 面 上 的 相似 性 ， 但 是 仿真 一 个 操作 系统 接口 与 仿真 指令 执行 
是 根本 不 同 的 。 一 个 ISA 从 内 存 中 读 人 数据 ， 执 行 转 换 数 据 的 指令 ， 并 且 将 数据 值 写 回 内 存 。 指 
令 集 是 远 辑 上 完整 的 ， 其 含义 是 给 定 足 够 的 时 间 ， 任 何 功能 都 可 以 被 执行 在 输入 数据 上 而 产生 
一 个 结果 。 此 外 ， 大 多 数 ISA 执行 相同 的 基本 功能 ,内存 加 载 /存储 ,算术 /逻辑 操作 ， 和 分 支 / 
跳 转 。 因 此 ， 对 于 ISA 仿真 ,仿真 是 否 能 够 完成 并 不 是 一 个 问题 ， 而 是 它 如 何 能 有 效 地 完成 以 及 
它 会 花费 多 长 时 间 。 

相反 ， 操 作 系统 涉及 外 部 世界 和 真实 的 YO 设备 。 此 外 ， 一 个 操作 系统 利用 明确 定义 的 操作 
集 来 实现 和 操纵 相当 复杂 的 实体 〈 如 进程 、 线 程 、 文 件 和 消息 缓冲 区 ) 。 在 这 个 环境 下 ， 不 管用 
多 少时 间或 人 的 独创 性 ， 主 机 操作 系统 完全 不 能 提供 客户 机 操作 系统 所 需 的 功能 是 极 有 可 能 的 。 
一 个 简单 的 例子 是 返回 日 期 时 间 的 系统 调用 。 如 果 主 机 操作 系统 没有 维护 一 个 日 期 时 间 的 时 钟 ， 
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而 客户 机 操作 系统 却 维护 了 ， 那 么 不 管 付 出 多 少 努力 ， 客 户 机 操作 系统 都 不 能 强制 主机 操作 系 
统 提供 正确 的 日 期 时 间 。 类 似 地 ， 客 户 机 操作 系统 可 以 有 支持 某 些 磁盘 文件 操作 的 调用 ， 而 完全 
不 被 主机 操作 系统 所 支持 。 也 有 一 些 语 义 不 匹 配 问题 ， 没 有 主机 操作 的 组 合 可 以 精确 地 仿真 一 
个 客户 机 操作 ; 例如 ， 如 果 许 多 操作 被 组 合 ， 可 能 会 有 额外 的 副 效应 。 

对 于 不 同 操作 系统 仿真 ， 很 难 提出 一 组 全 局 的 规则 或 策略 ， 因 为 有 广泛 种 类 的 情况 必须 被 
处 理 。 因 此 ， 操 作 系 统 仿真 是 一 个 非常 特别 的 过 程 ， 它 必须 在 逐 件 的 基础 上 实现 并 且 需 要 相当 多 
的 客户 机 和 主机 操作 系统 的 知识 。 这 个 过 程 与 从 一 个 操作 系统 到 另 一 个 的 代码 移植 类 似 一 一 但 
是 在 某 些 方 面 它 要 更 难 ， 因 为 对 于 移植 ， 可 以 作为 一 个 整体 来 检查 源 代码 然后 使 用 全 局 策略 做 
出 修改 。 然 而 对 于 仿真 ， 这 种 转化 必须 动态 地 完成 ， 具 有 相对 较 少 的 上 下 文 ， 在 它 内 部 一 个 特殊 
的 系统 调用 能 够 被 分 析 。 

一 般 而 言 ， 客 户 机 操作 系统 调用 由 运行 时 软件 的 包装 程序 来 支持 ， 这 与 先前 描述 的 一 样 。 一 
个 客户 机 调用 可 能 需要 多 个 主机 操作 系统 调用 来 仿真 ， 或 者 运行 时 软件 自身 也 许 会 执行 一 部 分 
或 全 部 的 仿真 ， 而 不 是 将 它 传递 给 主机 操作 系统 。 

例子 : 强制 执行 文件 限制 

Linux 和 Win32 在 很 多 情况 下 都 提供 相似 的 文件 WO 功能 。 但 是 在 有 一 些 情况 下 是 不 同 的 ， 
例如 ， 在 设置 文件 限制 上 。 当 一 个 Linux 进程 被 创建 时 ， 会 被 指定 一 个 所 能 够 写 的 文件 大 小 的 上 
限 ，RLIMIT_FSIZE。 而 在 Win32 中 却 没有 这 样 的 限制 。 因 此 ， 当 一 个 Linux 客户 机 进程 运行 在 
一 个 Win32 主机 上 时 ， 就 会 发 生 一 个 有 趣 的 仿真 问题 。 在 这 种 情况 下 ， 将 由 运行 时 软件 来 维护 
Linux 的 RLIMIT_FSIZE。 它 可 以 通过 保存 一 个 文件 限制 表 来 实现 ， 表 中 为 客户 机 打开 的 每 一 文 
件 建立 一 个 表 项 。 接 着 ， 作 为 对 磁盘 写 功能 包装 程序 的 一 部 分 ， 运 行 时 软件 可 以 维护 文件 限制 表 
(并 强制 执行 所 需 的 限制 )。 另 外 ，Linux 中 对 限制 进行 读 、 写 的 调用 getrlimit( ) 和 setrlimit( ) ， 
应 该 由 运行 时 软件 直接 实现 而 不 对 Win32 主机 调用 。 

从 实际 情况 来 说 ， 如 果 客 户 机 和 主机 的 操作 系统 不 相同 ， 就 不 太 可 能 执行 一 个 完全 兼容 的 
操作 系统 仿真 ;而 将 需要 一 些 权 衡 和 近似 。 一 种 常 被 使 用 的 权衡 是 限制 可 以 被 仿真 的 应 用 集 
(并 且 在 这 个 过 程 中 限制 必须 被 仿真 的 系统 调用 ) 。 例 如 ， 由 Sun 微 系 统 开发 的 Wabi 系统 (Ho- 
hensee，Myszewski， 和 Reese 1996 ) ， 它 是 在 Solaris 平台 上 只 仿真 某 些 广 受 欢迎 的 Windows 应 
用 ， 如 Word 和 Excel, 


3.8 代码 cache 管理 


代码 cache 是 二 进 制 翻译 系统 的 主要 部 件 ， 而 管理 代码 cache 是 运行 时 软件 所 执行 的 与 仿真 
有 关 的 重要 功能 之 一 。 尽 管 代 码 cache 在 某 些 方 面 与 传统 的 硬件 cache 相 类 似 , 但 是 它 至 少 在 三 
个 重要 方面 和 传统 cache 不 同 。 

1. 被 缓存 的 块 没有 固定 大 小 。 代 码 cache 块 的 大 小 取决 于 翻译 的 目标 块 的 大 小 ， 可 以 从 几 条 
指令 到 数 十 条 指令 。 

2. 由 于 链接 ， 块 的 存在 和 位 置 是 彼此 互相 依赖 的 。 如 果 从 代码 cache 中 移出 一 个 翻译 块 ， 那 
么 就 必须 修改 任何 指向 这 个 被 移出 块 的 链接 指针 。 

3. 在 “存储 备份 ”中 没有 cache 内 容 的 副本 。 在 一 个 块 从 代码 cache 中 移出 之 后 ， 它 必须 在 
可 以 放 回 到 cache 之 前 从 源 二 进 制 映像 中 重新 生成 。 

上 述 三 点 对 所 使 用 的 代码 cache 管理 算法 都 有 重大 的 影响 。 


3.8.1 代码 cache 实现 
代码 cache 本 身 包 含 由 翻译 源 代 码 而 形成 的 目标 代码 块 。 除 实际 的 代码 cache 之 外 ， 必 须 提 
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供 对 索引 表 的 支持 。 在 到 目前 为 止 的 讨论 中 ,我 们 已 经 识别 了 两 个 涉及 代码 cache 的 关键 操作 ， 
在 整个 仿真 过 程 中 必须 执行 这 两 个 操作 。 
。 给 定 一 个 块 起 始 处 的 源 PC， 如 果 翻 译 已 存在 ， 则 找 出 对 应 在 代码 cache 中 的 目标 PC。 这 
个 操作 在 仿真 控制 经 源 PC 转移 到 代码 cache 时 执行 ， 例 如 从 解释 传递 到 被 翻译 的 代码 。 
。 给 定 代码 cache 中 的 一 个 目标 PC， 找 出 对 应 的 源 PC。 执 行 这 个 操作 是 为 了 在 发 生 例外 时 
能 找 出 精确 的 源 PC。 
这 两 个 操作 分 别 通 过 上 映射 表 (图 228) 和 逆 变 换 索引 表 (图 3-22) 来 执行 。 


3.8.2 替换 算法 


在 实际 的 实现 中 ， 代 码 cache 的 容量 是 有 限 的 ， 并 且 依赖 于 被 仿真 应 用 的 工作 集 大 小 ， 翻 译 
的 代码 块 最 终 会 填 满 代码 cache。 当 出 现 这 种 情况 时 ， 需 要 某 些 代码 cache 管理 将 一 个 或 多 个 翻 
译 块 从 cache 中 移出 ， 以 便 为 新 的 翻译 腾 出 空间 。 正 如 传统 cache 一 样 ， 有 许多 可 能 的 替换 算法 。 
不 过 ， 代 码 cache 和 上 述 传统 cache 之 间 的 差异 对 替换 算法 的 选取 有 相当 大 的 影响 。 在 下 面 小 节 
H, 我们 讨论 若干 可 能 的 替换 策略 。 

最 近 最 少 使 用 

最 近 最 少 使 用 (least recently used, LRU) 算法 把 最 长 时 间 内 没有 被 使 用 的 一 个 cache IRF 
换 出 去 。 由 于 时 间 局 部 性 ， 对 于 传统 cache 这 经 常 是 一 个 好 的 策略 。 不 幸 的 是 ， 由 于 代码 cache 
的 特定 性 质 ，LRU cache 替换 算法 相对 难以 实 更。 首先， 存在 跟踪 最 近 最 少 使 用 的 翻译 块 的 开 
销 ; 每 当 进 入 一 个 抉 时 ， 对 每 块 可 能 需要 两 次 额外 的 内 存 访问 来 更 新 LRU 信息 。 其 次 ， 当 任意 
一 块 被 移出 时 ， 链 接 到 该 块 的 任何 块 必须 更 新 它们 的 链 指针 〈 把 它们 指 回 到 虚拟 机 而 不 是 到 被 
移出 的 块 )。 

为 了 实现 块 的 解 链 (delinking) ， 可 以 将 回 退 指针 添加 到 整个 代码 cache 结构 上 。 这 些 回 退 
指针 可 以 作为 PC 映射 表 的 一 部 分 (或 在 一 个 单独 的 索引 表 中 ) 来 维护 。 图 3-25 给 出 了 回 退 指 
针 作为 映射 表 一 部 分 的 一 个 实现 。 对 于 每 个 表 项 〈 即 对 每 个 翻译 块 ) ， 组 织 成 链表 的 回 退 指针 指 
向 链接 到 给 定 块 的 翻译 块 。 当 替换 一 个 块 时 ， 可 以 沿 着 这 个 链 来 找 出 和 修改 所 有 指向 这 个 块 的 
链 指针 。 

LRU 替换 的 第 三 个 问题 是 该 算法 可 能 从 翻译 cache 中 间 的 任意 一 个 位 置 选择 一 个 翻译 块 蔡 换 
出 去 ， 而 换 入 的 新 块 大 小 可 能 不 与 换 出 的 块 〈 或 多 个 块 ) 大 小 正好 相同 。 很 明显 这 会 导致 cache 
碎片 ， 并 且 会 需要 一 些 机 制 来 跟踪 未 使 用 空间 的 大 小 和 位 置 ， 以 及 执行 不 经 常 的 cache 紧 压 (这 
会 带 来 额外 的 复杂 问题 ， 如 调整 连接 代码 块 的 链 ) 。 

最 后 ,一 个 稍微 次 要 的 问题 是 逆 变 换 索引 表 的 维护 (如 图 3-22) 变 得 更 加 复杂 。 如 果 这 个 
表 按 照 目标 PC 递增 的 次 序 来 安排 ， 那 么 就 可 以 用 二 分 查找 (而 不 是 顺序 查找 ) 来 执行 在 道 变换 
表 中 的 查找 。 可 是 如 果 使 用 了 LRU 替换 ， 就 不 能 为 目标 PC 保证 这 个 次 序 。 

因为 在 实际 中 所 有 这 些 困难 都 会 出 现 ， 所 以 代码 cache 通常 不 采用 LRU 和 类 LRU 算法 。 而 
宁愿 采用 减少 (或 消除 ) 回 退 指针 和 碎片 问题 的 蔡 换 算法 。 下 列 各 小 节 由 简单 到 复杂 依次 描述 
了 了 个 这 样 的 代码 cache 蔡 换 算法 。 

满 时 清除 

也 许 最 基本 的 算法 是 简单 的 填 满 代码 cache， 然 后 完全 清除 它 并 从 一 个 空 的 cache 重新 开始 
(Cmelik 和 Keppel 1994) 。 尽 管 这 是 一 个 粗略 近似 的 方法 ,但 是 它 有 一 些 优点 。 首 先 ， 诸 如 超 块 
的 大 翻译 块 是 基于 频繁 经 过 的 控制 流 路 径 的 ， 即 条 件 分 支 通常 满足 的 方向 。 然 而 随 着 时 间 的 过 
去 ， 频 繁 经 过 的 路 径 可 能 改变 。 清 除 提供 了 一 种 机 会 来 消除 那些 已 变 为 失效 且 不 再 反映 代码 的 
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通常 路 径 的 控制 路 径 。 清 除 后 形成 的 新 翻译 块 更 有 可 能 代表 代码 当前 经 过 的 路 径 。 第 二 ， 在 像 
Shade 这 样 的 系统 中 ， 变 换 映 射 表 没有 被 链接 起 来 ,但 是 在 每 一 行 会 为 冲突 的 源 PC 保存 有 固定 
数目 的 表 项 (图 2-37) ， 有 时 ， 当 一 个 翻译 块 为 给 另 一 块 腾 出 空间 而 移 除 其 映射 表 指 针 时 ， 会 成 
为 “孤立 块 ”"。 清 除 操作 将 这 些 孤 立 块 移出 并 收回 其 代码 cache 空间 。 









目标 PC 


图 3-25 ”代码 cache 和 PC 映射 表 。 在 这 个 例子 中 ， 块 C 和 N 都 链接 到 块 B; 
因此 , 块 B 的 映射 表 项 有 指向 块 C 和 的 回 退 指针 


另 一 方面 ， 满 时 清除 方式 的 一 个 大 的 缺点 是 所 有 被 活路 使 用 的 块 ( 即 当前 工作 集中 的 成 员 ) 
不 得 不 从 头 开始 重新 翻译 ， 在 清除 操作 后 立即 会 引起 高 性 能 开销 。 

抢先 清除 . 

一 个 更 复杂 的 方案 是 基于 对 许多 程序 分 阶段 运行 的 观察 。 一 个 阶段 的 改变 通常 和 指令 工作 

集 的 改变 相关 。 因 此 当 有 一 个 程序 阶段 改变 时 ， 正 在 进入 一 个 新 的 源 代码 区 并 且 花 费 更 多 百 分 
比 的 时 间 在 块 翻译 上 ， 如 图 3-26 所 示 。 通 过 监控 新 翻译 的 执行 速度 ， 代 码 cache 可 以 被 抢先 清除 
以 给 新 工作 和 集成 员 的 翻译 腾 出 空间 (Bala, Duesterwald 和 Banerjia 2000) 。 清 除 之 后 翻译 的 次 数 
将 比 cache 在 一 个 阶段 的 中 间 变 满 时 所 需要 的 要 少 ， 因 为 避免 了 工作 集 的 重新 翻译 。 

细 粒 度 FIFO 

FIFO 替换 是 一 个 不 会 有 碎片 的 算法 ， 它 在 某 种 程度 上 充分 利用 了 时 间 局 部 性 并 且 不 是 一 个 
像 完全 清除 那样 的 粗略 近似 方法 。 对 于 FIFO 替换 ， 代 码 cache 可 以 作为 一 个 循环 缓冲 区 来 管理 ， 
最 老 的 块 被 移出 以 便 为 最 新 的 腾 出 空间 。 如 果 被 插入 到 cache 中 的 新 块 大 小 为 n， 那 么 被 替换 的 
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最 老 块 集合 的 大 小 总 计 至 少 为 n。 逆 变换 索引 表 可 以 按照 相应 的 FIFO 方式 来 管理 。 一 个 “ 头 ” 
指针 跟踪 cache 中 的 最 老 翻 译 块 ， 这 是 替换 的 开始 点 。 


探测 工作 集 的 
改变 和 增长 


\ 


新 的 翻译 


时 间 
图 3-26” 当 指令 工作 集 改变 时 清除 代码 cache。 当 检测 出 新 翻译 的 增长 时 ， 
清除 整个 代码 cache 以 便 为 新 的 工作 集 腾 出 空间 


这 种 方案 克服 了 LRU 的 许多 不 足 (虽然 略微 降低 了 命中 率 )。 不 过 ， 它 仍然 需要 通过 回 退 
指针 来 跟踪 链 ， 因 为 单独 的 翻译 块 被 替换 。 

粗 粒度 FIFO 

这 种 方案 将 代码 cache 划分 成 很 大 的 块 ， 例 如 块 可 能 是 整个 cache 的 四 分 之 一 或 八 分 之 一 。 
这 些 大 块 在 FIFO 的 基础 上 来 管理 。 用 这 种 方案 ， 可 以 简化 或 消除 回 退 指针 问题 。 

回 退 指针 问题 可 以 通过 只 在 FIFO 块 的 基础 上 维护 这 些 指针 来 简化 。 例 如 ， 如 果 一 个 包含 在 
FIFO $k A 中 的 翻译 块 链接 到 一 个 包含 在 FIFO 块 B 中 的 翻译 块 ， 那 么 用 一 个 指向 A 中 翻译 块 的 
指针 来 更 新 FIFO 块 B 的 回 退 指针 列表 。 不 过 ， 如 果 一 个 翻译 块 链接 到 包含 在 同一 个 FIFO 块 中 
的 另 一 个 翻译 块 ， 就 不 需要 回 退 指针 了 ， 见 图 3-27。 当 一 个 FIFO 块 被 蔡 换 时 ， 要 顺 着 所 有 与 它 
相关 的 回 退 指针 来 移 除 来 自 其 他 FIFO 块 中 的 翻译 块 的 链 。 由 于 程序 中 的 时 间 局 部 性 ， 没 有 回 退 
指针 的 FIFO 块 内 链 的 数目 ， 很 可 能 比 当 一 个 FIFO 块 被 替换 时 需要 处 理 的 FIFO 块 间 的 回 退 指针 
数目 多 。 


代码 cache 


FIFO 
block A 


FIFO 
block B 


FIFO 
block D 





图 3-27 ”使 用 粗 粒度 FIFO 的 代码 cache 管理 。 回 退 指针 只 为 跨越 FIFO 替换 块 边界 的 链 指针 所 需要 
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粗 粒 度 FIFO FAH Mojo (W.-K. Chen 2000) 中 被 提出 ， 其 中 只 使 用 了 两 个 主要 的 块 ， 
在 块 之 间 并 没有 回 退 指针 。 同 样 要 注意 : 在 某 种 意义 上 ， 完 全 清除 是 粗 粒度 FIFO 的 一 种 退化 的 
特例 〈 即 它 仅 使 用 一 个 块 ) 。 

性 能 

一 种 基于 Dynamo/RIO 动态 优化 系统 (Bruening, Garnett 和 Amarasinghe 2003) 的 代码 cache 
替换 算法 的 研究 (Hazelwood 和 Smith 2004) 认为 ， 粗 粒度 FIFO 方式 ， 如 将 cache 划分 成 八 个 大 
块 ， 比 细 粒 度 FIFO 或 者 满 时 清除 有 更 低 的 开销 。 图 3-28 中 的 图 表 显 示 了 在 一 些 基 准 测 试 程序 上 
的 平均 开销 (相对 于 满 时 清除 )， 这 些 基准 程序 包括 SPEC 基准 测试 程序 和 一 些 Windows 程序 。 
对 每 个 基准 测试 程序 ， 代 码 cache 的 大 小 都 被 人 为 限制 了 ， 这 是 为 了 确定 当代 码 cache 紧张 时 
( 当 它 不 紧张 时 ， 替 换算 法 的 差异 很 小 ) 的 性 能 影响 。 
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图 3-28 FIFO 代码 cache 管理 方案 的 相对 开销 。 开 销 是 相对 于 满 时 清除 方法 (清除 ) 的 
3.9 系统 环境 


开发 进程 虚拟 机 的 最 后 一 步 是 考虑 将 客户 机 进程 集成 到 主机 系统 环境 中 。 在 支持 进程 虚拟 
机 的 系统 中 ， 使 客户 机 应 用 的 安装 和 执行 尽 可 能 的 透明 是 值得 的 ， 这 里 的 透明 是 指 无 需 对 客户 
机 采取 任何 特别 的 行动 。 其 目的 是 给 予 用 户 无 颖 上 且 透 明 的 到 主机 和 客户 机 应 用 的 访问 。 

支持 一 个 集成 环境 的 主要 问题 是 在 环境 被 加 载 时 仿真 环境 中 所 有 客户 机 代码 的 封装 。 通 常 ， 
客户 机 代码 可 以 在 进程 创建 时 加 载 ， 或 者 可 以 稍 后 被 动态 链接 。 图 3-29 说 明了 所 支持 的 环境 类 
型 。 从 图 中 可 见 ， 客 户 机 进程 可 以 创建 另 一 个 客户 机 进程 或 者 一 个 主机 进程 ; 类 似 地 ， 一 个 主机 
进程 可 以 创建 另 一 个 主机 进程 或 者 一 个 客户 机 进程 。 随 着 客户 机 进程 的 执行 ， 该 进程 可 以 调用 

一 个 可 能 是 一 个 客户 机 例 程 的 动态 链接 库 (DLL) 例 程 (并 因此 被 仿真 ) ， 或 者 调用 一 个 本 地 编 
码 的 主机 例 程 。 通 常 ， 一 个 主机 进程 不 会 调用 一 个 客户 机 DLL， 因 此 我 们 不 考虑 这 种 情况 。 

上 上述 的 环境 实现 了 一 个 相当 高 级 的 客户 机 和 主机 进程 之 间 的 互 操作 性 。 在 某 些 情况 下 ， 尤 
其 是 在 客户 机 和 主机 操作 系统 不 同时 ， 互 操作 性 的 级 别 可 能 会 低 一 些 。 例 如 ， 客 户 机 进程 调用 主 
机 DLL 的 能 力 可 能 被 削弱 。 

为 了 实现 图 3-29 中 说 明 的 系统 ， 必 须 有 两 种 不 同 的 加 载 器 : 一 个 用 于 主机 二 进 制 代码 ， 而 
另 一 个 用 于 客户 机 二 进 制 代码 。 在 创建 一 个 进程 时 ， 有 几 种 调用 正确 的 加 载 器 的 方法 。 这 里 总 结 
了 三 种 可 能 性 (Hookway 和 Herdeg 1997 )。 

1. 修改 主机 的 内 核 加 载 器 例 程 (和 任何 可 能 在 主机 系统 中 使 用 的 用 户 空间 加 载 器 ) ， 首 先 识 
别 被 加 载 的 二 进 制 代码 的 类 型 (主机 或 客户 机 ) ， 然 后 调用 合适 的 加 载 器 程序 。 这 种 方法 在 概念 
上 是 简单 的 ， 但 是 需要 修改 内 核 加 载 器 代码 。 如 果 进 程 虚拟 机 系统 的 实现 不 带 有 内 核 修改 ， 那 么 
就 不 能 采用 这 种 方法 。 

2. 当 安 装 一 个 客户 机 程序 二 进 制 代码 时 ， 通 过 追加 一 些 主机 可 执行 代码 并 包含 作为 一 个 大 
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数据 结构 的 客户 机 二 进 制 代码 映像 ， 可 以 将 客户 机 程序 转化 为 一 个 主机 可 执行 文件 。 程 序 的 主 
机 可 执行 部 分 调用 客户 机 加 载 器 来 加 载 客户 机 二 进 制 数据 结构 并 开始 仿真 。 这 种 方法 需要 用 户 
在 客户 二 进 制 代码 被 安装 时 识别 这 些 代码 ， 使 得 安装 工具 可 以 连接 调用 加 载 器 前 端的 主机 可 执 
行 代码 。 在 某 种 意义 上 ， 这 种 方法 在 客户 机 进程 被 安装 时 封装 该 进程 。 然 而 ， 如 果 客 户 机 可 执行 
代码 从 远程 系统 被 加 载 ， 就 会 产生 一 些 问题 。 亦 即 ， 它 们 必须 被 安装 在 进程 虚拟 机 系统 的 “ 领 
域 ”之 内 。 





图 3-29 客户 机 和 主机 进程 在 进程 虚拟 机 中 的 集成 。 在 进程 虚拟 机 中 ， 主 机 和 客户 机 进程 能 够 按 
任意 的 顺序 被 创建 。 一 个 主机 进程 只 会 调用 主机 DLLs， 而 一 个 客户 机 进程 则 可 以 调用 
主机 DLL 或 者 客户 机 DLL 


3. 主机 进程 被 修改 以 便 特 殊 的 加 载 器 代码 可 以 被 “ 钧 ”在 加 载 用 户 进程 的 系统 调用 上 ， 如 
Win32 中 的 CreateProcess 调用 或 者 Linux 中 的 exec () 调用 。 这 种 方法 被 用 于 FX132 中 〈 稍 后 
详细 描述 ) ， 在 那儿 称 它 为 激活 (enabling)。 在 一 个 进程 被 激活 并 且 请 求 调用 CreateProcess 之 
后 ， 首 先 执行 一 个 到 特殊 预 加 载 器 (在 FX! 32 术语 中 称 为 透明 代理 (transparency agent)) 的 库 
调用 。 预 加 载 器 查看 是 否 正在 创建 一 个 客户 机 进程 。 如 果 是 这 样 ， 则 它 调 用 客户 机 进程 加 载 器 ; 
否则 它 根 据 需 要 创建 主机 进程 ， 然 后 在 允许 它 开始 运行 之 前 激活 它 。 因 此 ， 被 新 激活 的 主机 进程 
试图 创建 的 任何 后 续 进 程 也 会 执行 客户 机 /主机 预 加 载 嚣 检查。 为 了 首先 启动 这 个 引导 程序 ， 任 
何 “root” 用 户 进程 ， 如 登录 命令 解释 程序 ， 必 须 被 显 式 激活 。 

注意 ， 第 一 种 方法 需要 修改 内 核 ， 第 二 种 需要 在 安装 时 修改 可 执行 代码 ,第 三 种 在 进程 运行 
时 动态 地 修改 它们 。 为 了 使 第 三 种 方法 生效 ， 它 必须 能 激活 任意 的 主机 进程 。 例 如 ， 在 FX! 32 
中 ， 所 有 对 CreateProcess 的 调用 都 要 经 历 一 个 预 加 载 器 (透明 代理 ) 能 够 定位 的 单独 的 API 例 
程 。 然 而 ， 如 果 一 个 创建 进程 的 调用 可 以 发 生 在 主机 进程 中 的 任意 一 点 ， 那 么 要 激活 它 将 会 困难 
得 多 。 一 种 可 能 的 做 法 是 在 所 有 主机 进程 和 用 户 进程 上 执行 等 价 的 仿真 。 这 将 允许 运行 时 软件 
来 定位 所 有 被 产生 的 系统 调用 。 速 度 会 被 减 得 非常 低 ， 因 为 “二 进 制 翻译 ”总 计 会 比 识别 和 组 
存 超 块 而 不 发 生 实际 翻译 的 情况 要 多 一 点 。 这 种 技术 将 在 第 8 章 系 统 和 虚拟 机 的 上 下 文中 详细 
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解释 。 
关于 DLLs， 我 们 假设 主机 DLLs 只 能 够 被 主机 进程 调用 。 因 此 没有 必要 在 主机 进程 中 定位 


一 个 DLL 可 能 在 哪 被 调用 。 因 为 客户 机 进程 总 是 被 仿真 ， 对 动态 连接 器 的 调用 可 以 被 运行 时 软 
件 中 途 截 取 。 于 是 运行 时 软件 可 以 定位 正 被 调用 的 DLL。 这 个 DLL 既 可 以 来 自 一 个 客户 机 代码 
库 ， 也 可 以 是 一 个 被 写 入 主机 ISA 的 DLL (为 了 更 快 地 执行 客户 机 进程 ) 。 在 前 一 种 情况 下 ， 
DLL 也 因 仿 真 而 受到 运行 时 软件 的 控制 。 


3. 10 ”案例 研究 ; FX!32 


FX!32 是 由 DEC 公司 (Digital Equipment Corporation) 开发 的 ， 它 可 以 使 IA-32 应 用 在 一 个 
运行 Windows 操作 系统 的 Alpha 平台 上 透明 执行 (Hookway 和 Herdeg 1997; Chernoff 等 1998 ) 。 
FX!32 提供 一 个 进程 虚拟 机 模型 ， 如 本 章 所 述 (尽管 在 FX! 32 文档 和 文章 中 并 未 称 之 为 虚拟 
机 )。FX! 32 使 用 解释 和 翻译 来 执行 分 阶段 的 仿真 。 但 是 与 其 他 系统 不 同 的 是 ，FX132 不 是 动态 
地 翻译 代码 。FX132 开发 者 决定 在 程序 的 各 次 运行 之 间 执 行 翻译 和 优化 ， 而 不 是 在 程序 的 一 次 
运行 之 中 。 这 种 方式 是 基于 对 运行 时 间 和 翻译 /优化 时 间 之 间 的 性 能 权衡 。 通 过 非 动 态 地 翻译 各 
优化 ， 程 序 的 所 有 运行 时 间 实 质 上 可 以 都 用 于 仿真 。 此 外 ， 因 为 翻译 和 优化 是 在 程序 的 各 次 运行 
之 间 完 成 的 ， 故 可 以 有 更 多 的 时 间 致 力 于 这 些 任务 , 并 且 可 以 产生 一 个 更 加 高 度 优化 的 二 进 制 
代码 。 

当 一 个 程序 在 FX!132 系统 上 初次 运行 时 ， 它 只 被 解释 。 在 解释 期 间 ， 程 序 执行 的 剖析 信息 
被 收集 在 一 个 散 列 表 中 。 齐 析 信 息 中 包含 间接 跳 转 指 令 的 目标 。 之 后 在 程序 的 各 次 运行 之 间 ， 翻 
译 器 可 以 使 用 剖析 信息 来 发 现 从 跳 转 目标 开始 的 代码 区 ， 然 后 翻译 并 优化 结果 代码 。 优 化 的 代 
码 被 存储 于 磁盘 上 的 一 个 数据 库 中 。 

在 这 个 程序 的 随后 的 各 次 运行 过 程 中 ， 从 磁盘 加 载 并 执行 翻译 和 优化 的 代码 。 如 果 翻 译 的 
代码 试图 跳 转 到 一 个 没有 被 翻译 的 代码 区 域 ， 那 么 解释 器 就 接管 客户 机 代码 的 初始 版 本 。 和 前 
面 一 样 ， 会 收集 额外 的 程序 执行 剖析 信息 ， 以 便 在 程序 结束 之 后 ， 可 以 翻译 和 优化 更 多 的 代码 。 
最 终 ， 客 户 机 代码 的 所 有 被 执行 部 分 都 会 被 翻译 、 优 化 并 存储 于 磁盘 上 。 

在 概念 上 ， 这 种 方法 类 似 于 带 有 解释 和 动态 翻译 的 分 阶段 仿真 。 特 别 地 ， 解释 器 和 翻译 器 被 
交替 调用 ， 代 码 随 着 被 发 现 而 被 增 量 地 翻译 。 不 同 之 处 在 于 翻译 的 代码 在 各 次 运行 之 间 被 缓存 
在 磁盘 上 ， 而 不 是 在 每 次 执行 时 都 被 翻译 并 保存 在 代码 cache 中 。 此 外 ， 所 有 被 发 现 的 代码 都 被 
翻译 ; 它 不 像 传 统 的 分 阶段 仿真 策略 那样 依赖 于 代码 被 仿真 的 频率 。 

使 用 这 种 方法 增加 了 快速 解释 的 重要 性 ， 因 为 解释 器 被 用 于 整个 程序 的 第 一 次 运行 中 ， 以 
及 接连 的 各 次 运行 中 新 发 现 的 代码 部 分 。 快 速 解释 器 在 结构 上 类 似 于 2.4.3 节 中 所 描述 的 。 二 进 
制 翻译 过 程 与 第 2 章 中 描述 的 类 似 ， 因 此 我 们 在 这 不 做 进一步 讨论 。 相 反 地 ， 我 们 将 集中 FX132 
的 总 体系 统 环境 。 

图 3-30 说 明了 主要 的 FX!32 组 件 。 解 释 器 (在 FX!32 中 称 为 仿真 器 ) 和 翻译 器 是 仿真 引 
擎 的 主要 部 分 ， 这 些 已 经 讨论 过 了 。 其 他 五 个 组 件 是 透明 代理 、 运 行 时 软件 、 数 据 库 、 服 务 器 和 
管理 器 。 

透明 代理 负责 提供 主机 和 用 户 进程 的 无 锋 〈 透 明 ) 集成 ， 这 通过 执行 在 3.9 节 中 描述 的 预 
加 载 功 能 来 完成 。 透 明代 理 是 一 个 DLL ， 它 被 插 和 人 到 主机 用 户 进程 地 址 空间 中 ， 并 且 钩 住 Win32 
CreateProcess 系统 调用 和 其 他 与 进程 创建 和 管理 有 关 的 调用 。 这 个 激活 的 进程 由 一 系列 Win32 K 
统 调 用 组 成 ， 这 些 系统 调用 首先 在 主机 进程 上 分 配 一 小 块 内 存 区 域 ， 然 后 复制 代理 DLL 代码 。 
少数 的 root 进程 必须 作为 FX132 安装 过 程 的 一 部 分 被 显 式 地 激活 。 这 些 是 注册 登录 命令 解释 程 
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序 (explorer. exe) 、 服 务 控制 管理 器 和 远程 过 程 调用 服务 器 。 在 这 些 被 激活 之 后 ， 所 有 后 续 创 建 
的 主机 进程 也 以 递归 的 方式 被 透明 代理 激活 。 





图 3-30 FX!32 系统 的 主要 模块 


如 上 一 段 所 指出 的 ， 运 行 时 软件 充当 客户 机 IA-32 进程 的 加 载 器 ， 它 初始 化 客户 机 环境 ， 并 
且 在 客户 机 程序 运行 期 间 管 理 整个 仿真 过 程 。 它 调用 翻译 的 代码 ， 为 未 翻译 的 代码 找 出 源 PC 
值 ， 并且 在 需要 时 调用 解释 器 。 运 行 时 软件 也 定位 所 有 的 Win32 API 调用 ， 并 提供 将 参数 从 IA- 
32 栈 复制 到 Alpha 寄存 器 的 外 套 例 程 〈( 以 及 执行 可 能 需要 的 任何 数据 转换 )。 因 此 ， 许 多 API 调 
用 是 利用 主机 的 优化 的 Alpha 代码 来 执行 的 。 

FX1 32 数据 库 包含 关于 被 安装 的 IA-32 应 用 的 信息 。 这 个 信息 中 包含 有 对 应 用 和 任何 翻译 / 
优化 代码 的 剖析 数据 。 当 运行 时 软件 第 一 次 遇 到 一 个 IA-32 程序 时 ， 它 在 数据 库 中 登记 映像 ， 并 
通过 对 映像 头 部 的 散 列 而 产生 一 个 唯一 的 映像 标识 符 。 之 后 当 运 行 时 软件 加 载 一 个 IA-32 应 用 
时 ， 它 使 用 映像 标识 符 来 查找 数据 库 。 如 果 运 行 时 软件 找到 翻译 的 映像 ， 则 它 把 翻译 的 代码 连同 
IA-32 映像 一 起 加 载 进来 。 
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图 3-31 FX!32 在 Windows 基准 程序 上 的 性 能 。 在 Alpha 21164A 和 
当代 的 奔腾 处 理 器 上 作 了 性 能 比较 (Chernoff 等 1998) 


只 要 系统 被 启动 ， 服 务 器 就 会 被 启动 。 它 的 主要 职责 是 在 程序 的 各 次 运行 之 间 自 动 地 运行 
翻译 器 和 优化 器 。 最 后 ， 管 理 器 提供 给 用 户 一 些 FX! 32 资源 使 用 的 控制 。 通 过 管理 器 ， 用 户 可 
以 控制 数据 库 消 耗 的 磁盘 空间 的 数量 ， 那 些 应 被 保存 在 数据 库 中 的 信息 ， 以 及 翻译 器 应 在 哪些 
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条 件 下 运行 。 

FX132 系统 的 性 能 是 相当 好 的 。 图 3-31 显示 了 对 于 某 些 Windows 基准 程序 的 性 能 ( Cher- 
noff 1998) 。 这 个 数据 将 一 个 500-MHz Alpha 21164A 处 理 器 与 一 个 200-MHz 的 Pentium Pro 处 
理 器 作 了 比较 。 这 两 个 处 理 器 大 体 属 于 相同 的 技术 年 代 。Alpha 性 能 是 针对 已 经 被 优化 的 二 进 制 
代码 〈 即 针对 使 用 和 第 一 次 相同 输入 数据 的 第 二 次 运行 )。 人 性 能 是 以 相对 于 Pentium Pro 的 加 速 
比方 式 给 出 的 ， 因 此 任何 大 于 1 的 数字 都 是 一 个 改进 。Alpha 明显 比较 快 ， 只 有 一 个 例外 ， 其 中 
的 性 能 大 概 是 Pentium Pro 的 0. 65。 对 于 每 条 IA-32 指令 ，21164A 执行 4.4 条 Alpha 指令; 或 者 
对 于 每 个 Pentium Pro 微 操作 ，21164A 执行 2. 1 条 Alpha 指令 。 更 高 的 21164 时 钟 频率 带 来 了 整 
体 的 性 能 改进 。 


3. 11 总 结 


在 这 一 章 里 ,我 们 考虑 了 许多 进程 虚拟 机 实现 选项 。 例如， 指令 仿真 可 以 通过 (1) 解释 ， 
(2) 二 进 制 翻译 ， 或 者 G) 分 阶段 的 组 合 来 实现 。 地 址 上 映射 和 内 存 保护 可 以 〈1)》 通过 一 个 运 
行 时 软件 管理 的 表 或 者 (2) 使 用 直接 映射 来 完成 。 最 适合 给 定 实现 的 选项 取决 于 性 能 、 复 杂 性 
ALFA TE HG 

实现 仿真 最 一 般 的 方法 是 使 用 带 有 软件 内 存 映 射 和 保护 检查 的 指令 解释 。 这 种 方法 适合 内 
在 兼容 性 ， 但 是 它 可 能 是 最 慢 的 仿真 方法 。 男 一 方面 ， 如 果 (1) 客户 机 寄存 器 状态 安装 在 主机 
寄存 器 文件 之 内 ，(2) 客户 机 内 存 空间 安装 在 主机 空间 之 内 ，(3) 客户 机 页 大 小 是 主机 页 大 小 
的 倍数 ， 并 且 (4) 客户 机 权限 类 型 是 主机 权限 级 别 的 子 集 ， 那 么 通常 来 说 ， 带 有 硬件 地 址 映射 
和 检查 的 二 进 制 翻译 可 能 是 最 快 的 仿真 方法 ， 并 且 也 可 能 实现 内 在 兼容 性 。 

上 述 条 件 可 能 乍 看 起 来 是 相当 严格 的 ， 不 过 ， 有 一 些 重要 的 实际 情况 满足 这 些 约束 。 这 种 重 
要 的 实际 情况 之 一 就 是 在 一 个 RISC 平台 上 (或 者 一 个 Intel IPF/Itanium 平台 上 ) 虚拟 化 IA-32 
ABI。 如 在 这 种 情况 下 ，IA-32 寄存 器 文件 通常 足以 安装 在 主机 寄存 器 文件 内 部 ， 并 且 32 位 的 
IA-32 地 址 空间 能 安装 到 一 个 典型 的 64 位 地 址 空间 。 

在 许多 其 他 情况 下 ， 进 程 虚拟 机 可 以 被 构建 为 满足 外 在 兼容 性 约束 。 亦 即 ， 它 们 仅仅 为 某 些 
而 不 是 所 有 的 客户 机 二 进 制 代码 提供 兼容 性 。 当 主机 和 客户 机 支持 不 同 的 操作 系统 时 ， 就 必须 
做 出 最 重要 的 权衡 。 在 这 种 情况 下 ， 客 户 机 操作 系统 的 仿真 可 能 是 不 完整 的 。 这 将 使 应 用 限制 在 
那些 依赖 于 系统 调用 的 子 集 或 者 操作 系统 特征 子 集 的 应 用 上 。 兼 容 性 是 否 满足 将 多 半 不 得 不 在 
每 个 程序 的 基础 上 被 检验 。 

尽管 本 章 的 主题 是 进程 级 虚拟 机 ， 但 是 很 多 讨论 集中 在 仿真 架构 上 ， 包 括 分 阶段 的 仿真 、 代 
人 码 缓 存 ， 以 及 内 存 和 例外 仿真 。 这 些 仿真 架构 和 技术 比 进程 虚拟 机 有 更 广阔 的 应 用 。 进 程 虚 拟 机 
与 其 他 虚拟 机 的 分 界 点 是 在 操作 系统 调用 被 截取 和 仿真 被 执行 的 那些 地 方 一 一 对 于 一 个 进程 虚 
拟 机 ， 这 个 分 界 点 是 位 于 那些 对 操作 系统 的 用 户 接口 。 后 续 各 章 将 关注 其 他 仿真 的 要 点 ， 尤 其 是 
包括 系统 ISA 的 仿真 。 此 外 ， 在 相同 -ISA 动态 优化 器 系统 中 使 用 了 相似 的 仿真 架构 (在 下 一 章 
中 描述 ) 。 许 多 相同 的 技术 被 高 级 语言 虚拟 机 所 采用 ， 例 如 Java 虚拟 机 ， 将 在 第 5 和 第 6 章 中 
讨论 。 


第 4 章 动态 二 进 制 优化 


在 兼容 性 之 后 ， 性 能 常常 是 虚拟 机 实现 中 最 重要 的 考虑 因素 。 本 章 接着 前 一 章 的 内 容 继续 
阐述 ， 重 点 讨论 如 何 提高 仿真 过 程 的 性 能 。 与 解释 相 比 较 ， 仅 仅 执行 简单 的 二 进 制 翻译 会 产生 大 
量 的 (数量 级 ) 性 能 收益 。 然 而 ， 在 基本 二 进 制 翻 译 的 基础 上 ， 对 翻译 后 的 代码 再 进行 优化 会 
提供 额外 的 性 能 改进 。 

在 许多 虚拟 机 中 ， 执 行 简 单 的 优化 只 是 为 了 平滑 一 些 从 初始 的 二 进 制 翻译 中 留 下 的 “ 毛 
边 ”。 例 如 ， 图 2-19 (这 里 重复 为 图 4-1a) 中 的 前 两 条 IA-32 指令 的 一 种 简单 的 翻译 方式 (每 次 
翻译 一 条 指令 ) 会 产生 五 条 PowerPC 指令 。 一 种 简单 的 优化 ， 公 共 子 表达 式 消除 会 跨越 原始 的 
IA-32 指令 边界 进行 查找 ， 接 着 发 现 有 两 条 计算 4 +4 的 不 同 的 PowerPC 指令 ， 因 而 第 二 条 可 以 
被 消除 (图 4-1b)。 , 

在 某 些 虚拟 机 中 ， 更 加 激进 的 优化 可 以 帮助 缩小 客户 端的 仿真 性 能 和 本 地 平台 性 能 之 间 的 

差距 ， 尽 管 难 以 完全 消除 这 种 差距 。 然 而 ， 在 有 些 虚 拟 机 应 用 中 ， 优 化 是 最 初 构建 虚拟 机 的 主要 
”原因 之 一 。 一 个 例子 是 协同 设计 的 虚拟 机 ， 将 在 第 7 章 中 讨论 。 另 一 个 例子 是 相同 -TSA 动态 二 
进 制 优化 器 ， 其 目的 是 在 本 地 平台 上 提高 性 能 ， 这 将 在 4.7 节 中 讨论 。 
-优化 包括 一 些 简单 的 技术 ,例如 上 一 章 讨论 的 翻译 块 的 链接 。 更 高 级 的 优化 方法 是 形成 大 
的 翻译 块 ， 其 中 每 个 翻译 块 又 包含 多 个 基本 块 ， 并 且 采 用 可 以 跨越 原始 基本 块 边界 的 优化 技术 。 
一 些 优化 通过 重 排 翻译 指令 来 提高 流水 线性 能 。 另 一 些 优化 则 利用 传统 编译 器 中 的 一 些 技术 
(如 图 4-1 所 示 ) 。 最 后 ， 还 有 一 些 优化 利用 了 特定 于 程序 的 执行 模式 知识 ， 这 些 知识 是 由 仿真 过 
程 收集 的 。 这 些 关于 程序 行为 的 统计 信息 或 者 剖析 信息 ， 将 用 来 指导 优化 决策 。 


%edx, 4(%eax) 
4(%eax) ,%edx 


















r16,r4,4 ;add 4 to %eax 
lwzx r17,r2,r16 ;load operand from memory 

add r7,r17,r7 :perform add of %edx 

ri6,r4,4 ;add 4 to %eax 

r7,r2,r16 ;store %edx value into memory 






a) 从 IA-32 到 PowerPC 的 一 个 简单 的 翻译 











r16,r4,4 ;add 4 to %eax 
Iwzx =rl7,r2,r16 ;1oad operand from memory 
add r7,r17,r7 ;perform add of %edx 
r7,r2,r16 ;Store %edx value into memory 





b) 第 二 个 addi 被 消除 了 


图 4-1 优化 增强 了 二 进 制 翻译 


程序 剖析 常用 来 启动 各 仿真 阶段 之 间 的 转移 ， 如 在 解释 和 二 进 制 翻译 之 间 ; 同时 ， 它 在 实现 
对 翻译 后 的 代码 的 一 些 特定 优化 也 起 着 重要 的 作用 。 剖 析 信 息 可 以 通过 插入 指令 到 解释 器 或 者 
翻译 后 的 代码 中 的 软件 方法 来 收集 ， 也 可 以 通过 硬件 或 者 硬件 和 软件 的 某 些 组 合 来 收集 。 剖 析 
数据 一 旦 被 收集 ， 就 可 以 用 来 优化 被 仿真 程序 的 性 能 。 最 重要 的 两 类 剖析 信息 是 : (1) 被 频繁 
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执行 的 那些 指令 〈 或 者 基本 块 ) ， 即 程序 耗费 时 间 最 多 的 地 方 ; (2) 基本 块 中 最 经 常 被 执行 的 序 
列 。 除 了 这 两 类 重要 的 剖析 信息 以 外 ， 特 定 的 优化 还 可 能 依赖 特殊 数据 变量 或 地 址 的 行为 ， 这 种 
附加 信息 可 以 根据 需要 通过 剖析 来 收集 。 

运行 时 翻译 和 优化 的 一 个 优点 是 程序 的 剖析 数据 可 以 提供 在 最 初 编译 程序 时 可 能 得 不 到 的 
信息 。 例 如 ， 考 虑 图 4-2a 所 示 的 代码 。 假 设 它 表示 从 源 ISA 二 进 制 代码 (在 图 中 没有 显示 ) M 
译 得 到 的 目标 ISA 代码。 和 本 章 中 的 其 他 例子 一 样 ， 为 了 使 这 个 例子 更 容易 理解 ， 我 们 使 用 一 种 
寄存 器 转移 符号 而 不 是 传统 的 汇编 语言 。 三 个 基本 块 (A, BAC) 已 经 被 翻译 ; 基本 块 A 后 跟 
其 他 两 个 块 中 的 一 个 ， 这 取决 于 块 A 末端 的 条 件 分 支 的 结果 。 在 块 A 内 ， 寡 存 器 R1 被 设置 为 一 
个 新 值 ， 该 值 稍 后 在 块 B 中 使 用 。 如 果 块 A 末 端的 条 件 分 支 结果 确定 块 C 为 跟随 块 ， 那 么 寄存 
a RI 会 在 使 用 前 被 立即 重新 赋值 。 现 在 假定 这 块 代码 的 剖析 信息 表明 该 条 件 分 支 主要 向 块 C 方 
向 执行 。 那 么 在 块 A 中 对 RI 赋值 的 代码 在 大 多 数 时 候 都 是 无 效 的 。 因 此 ， 如 图 4-2b 所 示 ， 一 个 
块 间 优化 可 以 从 块 A 中 删除 对 RI 的 最 初 赋值 。 所 得 到 的 代码 随后 将 改善 性 能 ， 因 为 对 原 代码 序 
列 的 大 多 数 仿 真 而 言 ， 对 RI 的 赋值 被 消除 了 。 但 是 ， 在 极 少数 情况 下 ,分支 可 能 走 其 他 方向 ， 
即 执行 块 B。 为 了 处 理 这 种 情况 ， 优 化 器 必须 在 进入 块 B 之 前 插入 补偿 代码 。 在 本 例 中 ， 补 偿 代 
码 提供 了 对 寄存 器 RI 的 正确 赋值 (图 4-2c) 。 


基本 块 A 











R3 <... 






R7 é... R7 ©... R7 ©... 
RI R2 + R3 Br L1 if R3==0 Br L1 if R3== 


Br L1 if R3==0 












基本 块 B BARB ARR B 


R6 <—R1 + R6 R6 <—R1 + R6 


R6 RI + R6 





a) 到 基本 块 C 的 BEQ 是 主要 的 b) 优化 会 从 基本 块 A 中 c) 添加 对 RI 赋值 的 补偿 代码 以 
删除 对 R1 的 赋值 处 理 极 少数 分 支 失 败 的 情况 


图 4-2 一 种 基于 剖析 信息 的 优化 


正如 刚才 所 说 的 ， 普 通 的 优化 策略 将 使 用 剖析 来 决定 哪些 是 程序 控制 流 ( 由 条 件 分 支 和 跳 
转 结果 来 决定 的 ) 所 走 的 主要 路 径 ， 然 后 在 这 个 基础 上 优化 代码 。 在 某 些 情况 下 ， 这 些 优 化 把 
指令 从 一 个 块 移动 到 另 一 个 块 ， 就 像 本 例 中 所 做 的 那样 。 此 外 ， 某 些 主机 处 理 器 的 实现 可 能 高 度 
依赖 于 编译 器 来 执行 代码 重 排 ， 以 便 获得 好 的 性 能 。 例 如 ， 处 理 器 可 能 有 一 个 简单 的 按 序 发 射 指 
令 的 流水 线 ， 并 且 / 或 者 可 能 实现 一 个 VLIW 指令 集 ( 见 附录 A. 1.1 节 )， 该 指令 集 依靠 软件 将 
多 条 独立 的 指令 组 合成 一 个 单条 VLIW 指令 。 对 于 这 些 情 况 ， 可 能 没有 针对 目标 处 理 器 而 是 针对 
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源 程序 二 进 制 代码 进行 最 优 排序 ， 因 此 优化 器 经 常 是 在 剖析 信息 的 帮助 下 热 行 代码 重 排 。 

作为 对 上 述 块 间 优 化 的 补充 ， 基 本 块 本 身 可 以 在 内 存 中 被 重 排 ， 以 便 使 最 常 走 的 执行 路 径 
拥有 保存 在 连续 内 存单 元 中 的 指令 。 这 会 提高 取 指 效率 ， 进 而 可 能 提高 性 能 。 如 果 有 必要 ， 基 本 
块 重 排 可 能 涉及 条 件 分 支 预测 的 反 转 。 例 如 ， 在 图 4-3 中 ,之 前 在 图 4-2 中 给 出 的 代码 中 ， 将 经 
常 执行 的 路 径 重 构 为 一 个 直线 型 代码 序列 。 这 个 直线 序列 是 超 块 的 一 个 例子 ， 超 块 是 具有 一 个 
入 口 点 (在 顶部) 和 潜在 的 多 个 出 口 点 的 一 个 代码 序列 (Hwu 等 1993 ) 。 并 且 ， 像 本 例 所 示 的 
那样 ， 从 超 块 中 间 出 来 的 出 口 点 经 常 流入 到 补偿 代码 块 中 。 

大 多 数 基本 块 间 的 代码 优化 实际 上 不 需要 重 排 基本 块 的 位 置 例如 ， 在 图 4-2 中 的 优化 不 需 
要 形成 超 块 。 然 而 ， 这 两 种 类 型 的 优化 似乎 能 很 自然 地 相配 。 这 些 超 块 对 优化 区 域 精细 地 局 部 
化 ， 局 部 化 过 的 代码 也 会 在 取 指 时 提供 额外 的 性 能 收益 ， 稍 后 将 在 本 章 中 讨论 。 

优化 紧密 地 与 仿真 集成 在 一 起 ， 并 且 通 常 是 整个 框架 的 一 部 分 ， 它 支持 上 一 章 介 绍 的 分 阶 
段 仿真 。 仿 真 框架 包含 一 种 软件 ， 该 软件 能 协调 多 种 仿真 方法 ， 并 在 基于 客户 程序 运行 时 行为 的 
各 仿真 方法 之 间 转 移 。 


R7 ©... 
R1 -R2 + R3 
Br L1 if R3==0 









R3 &... 

R7 e... 

Br L2 if R3!=0 
R1 ce-0 


基本 块 BB 








R6 <—R1 + R6 





补偿 代码 
R1 &R2 + R3 





b) 


图 4-3 超 块 的 形成 。 代 码 被 重 排 以 便 最 经 常 出 现 的 各 个 块 是 连续 的 。 为 了 实现 块 连续 ， 在 a) 中 的 分 支 
从 相等 反 转 为 不 相等 。 在 重 排 后 的 b) 中 ， 形 成 一 个 有 一 个 入口 点 和 两 个 出 口 点 的 超 块 


3. 5.2 节 中 简要 描述 的 分 阶段 仿真 是 以 平衡 启动 时 间 和 稳 态 性 能 为 基础 的 。 一 些 仿真 方法 具 
有 快速 的 启动 性 能 而 具有 较 低 的 稳 态 性 能 ， 而 另 一 些 仿真 方法 启动 较 慢 却 有 高 的 稳 态 性 能 。 图 
4-4 中 显示 了 一 个 相对 复杂 的 分 阶段 仿真 的 例子 ， 它 包含 三 个 阶段 。 在 该 例 中 ,仿真 最 初 是 通过 
解释 (使 用 源 ISA 二 进 制 存储 映像 ) 来 进行 的 。 解 释 的 同时 会 收集 剖析 信息 。 痢 析 信 息 有 助 于 
识别 那些 频繁 使 用 的 代码 区 域 。 接 着 ， 这 些 频 繁 执行 的 代码 区 域 作为 动态 基本 块 被 二 进 制 翻译 ， 
然后 被 放 在 基本 块 cache 中 以 便 复 用 。 受 益 于 剖析 数据 ， 经 常 使 用 的 基本 块 可 以 组 合成 更 大 的 翻 
译 块 ， 即 超 块 ， 它 们 稍 后 被 优化 并 放 入 代码 cache 中 。 随 着 仿真 的 进行 ， 优 化 器 可 能 会 被 另外 调 
用 多 次 以 进一步 优化 代码 cache 中 的 各 块 。 

围绕 分 阶段 仿真 策略 的 谱系 ,我 们 至 少 可 以 确定 四 种 潜在 的 仿真 阶段 : 解释 、 基 本 块 翻译 
(可 能 带 有 链 ) 、 优 化 的 翻译 〈 带 有 诸如 超 块 的 更 大 的 块 ) 以 及 高 度 优化 的 翻译 〈 它 使 用 在 一 段 


149 
150 


151 


92 HAE 





相对 长 的 时 间 内 收集 的 剖析 信息 ) 。 






二 进 制 内 存 映像 
仿真 
管理 器 


图 4-4 一 个 分 阶段 的 优化 系统 。 从 简单 的 解释 到 二 进 制 翻译 高 度 优 化 的 翻译 块 的 演进 


图 4-5 显示 了 仿真 方法 和 相应 的 性 能 特性 的 谱系 。 启 动 时 间 和 稳 态 性 能 之 间 的 平衡 已 经 在 
3.5.1 节 中 讨论 过 了 。 除 仿真 之 外 ， 有 一 套 剖 析 方 法 适合 于 整个 谱系 。 对 于 级 别 较 高 的 仿真 ， 需 
要 更 广泛 的 剖析 ， 无 论 是 在 收集 的 剖析 数据 类 型 上 ， 还 是 在 所 需 的 剖析 数据 点 数目 上 上。 当然 ， 广 
泛 的 剖析 会 增加 开销 ， 尤 其 是 在 完全 使 用 软件 完成 的 时 候 。 

阶段 : 解释 一 > ”基本 翻译 —> ”优化 的 抉 —> 高 度 优化 的 块 
忌 速 启动 < 一 一 一 一 一 一 一 一 一 一 一 一 一 > 非常 缓慢 的 启动 
缓慢 的 稳定 状态 了 < 一 一 一 一 一 一 一 一 一 一 一 一 一 > 快速 的 稳定 状态 
简单 剖析 才 一 一 一 一 一 一 一 一 一 一 一 一 一 > 扩展 的 剖析 
图 4-5 仿真 技术 的 谱系 和 性 能 折 中 


有 许多 分 阶段 的 仿真 策略 ， 它 们 取决 于 源 ISA、 目 标 ISA、 所 实现 的 虚拟 机 类 型 以 及 设计 目 
标 。 最 初 的 HP Dynamo 系统 《Bala，Duesterwald 和 Banerjia 2000) 和 Digital 的 FX! 32 系统 
(Hookway 和 Herdeg 1997) 首先 解释 然后 生成 优化 的 翻译 代码 。DynamoRIO 系统 (Bruening, 
Garnett 和 Amarasinghe 2003) #1 LA-32-EL (Baraz 等 2003) 省 去 了 初始 的 解释 阶段 ， 以 支持 在 后 
面 的 优化 之 前 所 做 的 简单 二 进 制 翻译 。 还 有 一 些 仿真 框架 省 去 了 扩展 的 优化 ， 因 为 在 某 些 应 用 
中 优化 的 开销 和 /或 所 需要 的 支持 可 能 是 不 合理 的 ; 优化 本 身 要 花费 时 间 ， 并 且 所 需要 的 剖析 级 
别 可 能 也 是 耗 时 的 。Shade 模拟 系统 (Cmelik 和 Keppel 1994) 仅仅 包含 解释 和 简单 的 翻译 ; 在 
那个 应 用 中 ， 不 要 求 优 化 。 

在 本 章 的 剩余 各 节 中 ， 将 对 前 面 的 想法 展开 描述 。 首 先 描述 软件 和 硬件 的 剖析 技术 。 然 后 讨 
论 使 用 前 析 信息 来 形成 大 的 翻译 /优化 块 的 方法 。 接 下 来 ,我 们 考虑 在 扩大 的 翻译 块 内 重 排 指 令 
的 优化 ;对 于 一 些 处 理 器 ， 这 可 以 增加 对 底层 硬件 可 用 并 行 度 的 开发 。 然 后 ， 我 们 考虑 其 他 的 优 
化 ， 它 们 是 经 典 编译 器 优化 的 简单 版 本 。 这 些 优 化 中 的 一 些 也 可 以 利用 运行 时 收集 的 前 析 数 据 。 

本 章 中 给 出 的 优化 框架 和 技术 主要 是 针对 传统 ISA 的 仿真 〈 如 IA-32 和 PowerPC), 。 然 而 ， 
动态 优化 也 是 高 性 能 的 高 级 语言 虚拟 机 (如 Java 虚拟 机 ) 的 一 个 重要 部 分 ， 这 将 在 第 6 Be 
述 ， 本 章 中 的 许多 技术 可 以 扩展 到 高 级 语言 虚拟 机 。 第 7 章 中 介绍 的 协同 设计 的 虚拟 机 也 是 高 度 
依赖 于 动态 优化 的 。 在 那 一 章 中 ， 我 们 重点 讨论 可 以 利用 特殊 的 硬件 支持 的 优化 方法 ， 其 中 的 硬 
件 支 持 是 作为 协同 设计 策略 的 一 部 分 而 提供 的 。 


4.1 动态 程序 的 行为 
在 虚拟 机 开始 仿真 一 个 程序 时 ， 它 对 被 仿真 代码 的 结构 是 一 无 所 知 的 ， 但 是 为 了 提高 性 能 ， 


动态 二 进 岗 优化 93 








仿真 软件 可 能 需要 使 用 那些 非常 依赖 于 程序 结构 和 动态 行为 的 优化 。 当 一 个 程序 正 被 仿真 时 ， 
优化 系统 可 以 使 用 剖析 来 了 解 这 个 程序 的 结构 。 然 后 ， 仿 真 软件 将 剖析 信息 与 典型 的 程序 行为 
相 结合 来 指导 对 翻译 代码 的 优化 。 在 这 一 节 中 ,我 们 讨论 在 过 去 几 年 中 研究 者 和 设计 者 发 现 的 
程序 行为 的 某 些 重要 特性 。 这 些 性 质 已 成 为 在 虚拟 机 中 实现 的 许多 优化 启发 式 方法 的 基础 。 
程序 的 一 个 重要 性 质 是 动态 控制 流 是 高 度 可 预测 的 。 当 程序 计数 器 在 整个 程序 中 安排 好 次 序 

后 ,任何 给 定 的 条 件 分 支 指令 在 大 部 分 时 间 里 常 被 判定 为 同一 种 情形 〈 跳 转 或 不 跳 转 ) 。 例 如 ， 考 
BE 4-6 中 的 一 小 段 代码 ， 它 在 一 个 含有 100 个 元 素 的 线性 数组 中 查找 一 个 特定 值 ( -1) 。 

R3 e 100 

loop:R1 <—mem(R2) ; load from memory 
Br found if R1 == -1 ; look for -1 
R2 —R2 + 4 


R3 <—R3 -1 
Br loop if R3 != 0 ; loop closing branch 





found: 


图 4-6 查找 值 -1 的 简单 循环 
如 果 值 -1 并 不 经 常 出 现 ， 那 么 结束 这 个 循环 的 条 件 分 支 在 多 数 情况 下 总 是 跳 转 的 。 另 一 方面 ， 
检测 -1 出 现 的 分 支 多 数 是 不 跳 转 的 。 这 种 双 峰 的 分 支行 为 在 现实 的 程序 中 很 典型 。 图 4-7 给 出 了 在 一 
组 整数 SPEC 基准 测试 程序 中 条 件 分 支 指令 的 平均 统计 。 对 于 这 些 程序 ，70% 的 静态 分 支 主 要 判定 为 
一 种 情况 〈 至 少 占 90% ) ; 42% 的 分 支 指令 主要 判断 为 跳 转 ， 而 28% 主要 判断 为 不 跳 转 。 


50% 





静态 条 件 分 支 的 比例 





0-10% 10-20% 20-30% 30-40% 40-60% 50-60% 60-70% 70-80% 80-90% >90% 
跳 转 百分比 

图 4-7 ”发生 跳 转 的 条 件 分 支 的 分 布 。 大 部 分 条 件 分 支 的 判定 结果 为 同一 个 方向 〈 跳 转 或 者 不 跳 转 ) 

此 外 ， 大 部 分 分 支 的 判定 结果 与 它们 上 一 次 执行 的 判定 结果 相同 。 这 在 图 4-8 中 说 明 ， 图 中 
根据 基准 测试 程序 ， 有 63% 到 98% 的 分 支 与 它们 的 上 一 次 执行 判定 结果 相同 。 

条 件 分 支 指令 的 另 一 个 重要 性 质 是 向 后 的 分 支 ( 即 跳 转 到 较 低 地 址 的 分 支 ) 通常 是 满足 的 ， 
因为 它们 经 常 是 一 个 循环 的 一 部 分 。 男 一 方面 ， 向 前 的 分 支 经 常 是 不 满足 的 例如， 如果 它们 在 
测试 错误 或 者 其 他 特殊 的 循环 出 口 条 件 ， 如 图 4-6 中 所 给 的 例子 。 

间接 跳 转 的 可 预测 性 对 于 动态 翻译 和 优化 也 是 重要 的 。 对 于 间接 跳 转 ， 重 点 是 确定 跳 转 的 
目的 地 址 。 因 为 跳 转 目标 存放 在 一 个 寄存 器 中 ， 而 寄存 器 的 内 容 可 能 是 在 运行 时 被 计算 出 来 的 ， 
因此 跳 转 目标 在 程序 执行 过 程 中 可 能 会 发 生 改 变 。 一 些 跳 转 目的 地 址 很 少 改变 并 且 是 高 度 可 预 
测 的 ， 而 另 一 些 则 经 常 改变 并 且 非 常 难 以 预测 。 实 现 switch 语句 的 跳 转 指令 有 时 可 能 难以 预测 ， 
因为 被 选中 的 情况 可 能 会 经 常 变 化 。 实 现 从 过 程 返回 的 间接 跳 转 有 时 也 是 难以 预测 的 ， 因 为 可 
以 从 许多 不 同 的 位 置 来 调用 一 个 过 程 。 图 4-9 针对 一 组 SPEC 基准 测试 程序 ， 显示 了 它们 在 程序 
执行 过 程 中 只 有 略 多 于 20% 的 间接 跳 转 有 单一 的 跳 转 目标 ， 而 几乎 60% 的 间接 跳 转 有 三 个 或 更 





153 


94 4 F 





多 不 同 的 跳 转 目标 。 


y 100% 
90% 
80% 
70% 





和 前 一 次 判定 相同 的 动态 分 支 的 百 分 
$ 
2 





图 4-8 条 件 分 支 的 同性 。 大 部 分 分 支 被 判定 为 与 它们 前 一 次 执行 时 的 判定 结果 相同 
我 们 感 兴趣 的 最 后 一 个 程序 特征 是 数据 值 的 可 预测 性 。 一 个 程序 使 用 的 数据 值 通常 是 可 预 
测 的 ， 并 且 多 数 情况 下 ， 在 程序 的 执行 过 程 中 它们 只 有 相对 很 小 的 变化 。 图 4-10 显示 了 每 次 被 
执行 时 都 计算 相同 值 的 指令 的 比例 。 对 于 所 有 的 指令 ， 依 据 指令 类 型 ， 总 是 计算 相同 值 的 静态 指 
令 数 显 示 在 最 左边 的 柱 上 。 最 右边 的 柱 显示 的 是 执行 左边 柱 中 静态 指令 的 动态 指令 的 比例 。 所 














25% oh aenn = — sai 
| | 
2 20% 
~ 
= 15% 
£ 10% 
& 
E 5% | 
0% J H LL a 一 玉 ] 
1 2 3 4 5 6 7 8 >9 
不 同 目标 的 数目 


图 4-9 间接 跳 转 目标 的 数量 。 只 有 多 于 20% 的 间接 跳 转 有 单一 的 目标 ; 其 他 的 有 许多 目标 








All i Set 





图 4-10 总 是 产生 相同 结果 值 的 指令 的 比例 
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4.2 Xt 


剖析 是 为 执行 中 的 程序 收集 指令 和 数据 的 统计 信息 的 过 程 。 这 种 统计 神 析 数据 可 以 作为 代 
码 优 化 过 程 的 输入 。 一 般 地 说 ， 由 于 程序 的 可 预测 性 ， 会 使 基于 剖析 的 优化 产生 效果 。 亦 即 ， 对 
程序 的 过 去 行为 度量 所 得 到 的 程序 特性 常会 继续 保持 在 程序 的 未 来 行为 中 ， 因 此 可 以 用 这 些 信 
息 来 指导 优化 。 


4.2.1 剖析 的 作用 


传统 上 ， 在 软件 开发 者 的 控制 下 ， 代 码 剖 析 已 作为 向 编译 过 程 提 供 反 馈 信息 的 一 种 途径 ， 参 
见 图 4-11a。 这 里 ， 编 译 器 首先 将 源 程 序 分 解 成 一 个 控制 流 图 ， 然 后 分 析 这 个 图 以 及 程序 的 其 他 
方面 ， 接 着 在 程序 中 插入 探 针 (probe) 来 收集 剖析 信息 。 探 针 是 一 段 短 的 代码 序列 ， 它 将 程序 
的 执行 信息 记录 到 内 存 中 的 一 个 剖析 日 志 中 。 例 如 ， 可 以 在 分 支 指令 处 安插 剖析 探 针 来 记录 分 
支 的 结果 。 在 编译 器 生成 的 代码 中 ， 将 包含 这 些 插入 的 探 针 。 接 下 来 ， 程 序 在 一 个 典型 的 数据 输 
信 集 上 运行 ， 与 此 同时 探 针 为 整个 程序 生成 剖析 数据 。 然 后 ， 对 剖析 日 志 进 行 离线 分 析 ， 分析 结 
果 将 反馈 回 编译 器 中 。 编 译 器 再 使 用 这 些 信 息 来 生成 优化 代码 。 优 化 器 可 以 对 原始 的 高 级 语言 
程序 进行 优化 ， 更 多 的 是 从 编译 器 生成 的 中 间 形 式 (Chang，Mahlke 和 Hwu 1991) 或 最 初 编译 
得 到 的 二 进 制 代码 (Cohn 等 1997) 开始 进行 优化 。 在 某 些 情况 下 ， 硬 件 可 以 通过 计数 器 或 者 时 
钟 中 断 来 支持 剖析 收集 ， 其 中 允许 通过 软件 来 收集 统计 采样 信息 。 

当 在 这 种 传统 框架 中 使 用 代码 剖析 时 ， 基 于 程序 的 结构 可 以 完整 地 分 析 程 序 ， 并且 可 以 将 
剖析 探 针 放 到 最 佳 的 放置 。 为 了 得 到 对 分 支 路 径 的 完整 剖析 ， 并 没有 必要 在 程序 中 的 每 个 分 支 
路 径 上 放置 一 个 探 针 。 此 外 ， 可 以 在 一 个 程序 的 一 次 完整 运行 过 程 中 收集 剖析 信息 来 获得 相当 
完整 的 剖析 信息 。 为 了 提高 剖析 的 覆盖 范围 ， 可 以 使 用 不 同 的 输入 数据 集 来 多 次 运行 程序 执行 
剖析 。 

与 刚刚 描述 的 静态 优化 相反 ， 对 于 动态 优化 (如 图 4-11b 中 显示 的 进程 虚拟 机 ) ， 程 序 结构 
在 程序 启动 时 是 未 知 的 。 像 之 前 在 第 2.6 节 中 讨论 的 那样 ， 运 行 时 的 仿真 引擎 只 得 到 客户 程序 在 
内 存 中 的 二 进 制 映像 ， 它 必须 以 渐 增 的 方式 发 现 指令 块 和 整个 程序 结构 。 倘 若 没 有 程序 结构 的 
全 局 视图 ， 将 很 难 甚至 根本 不 可 能 以 全 局 最 优 的 方式 插入 剂 析 探 针 。 此 外 ， 齐 析 的 可 预测 性 必须 
更 高 ; 即 ， 应 该 尽早 地 确定 程序 特性 以 便 获 得 最 大 的 收益 。 这 意味 着 必须 基于 程序 的 部 分 执行 中 
收集 到 的 统计 信息 来 做 出 优化 决定 。 

在 剖析 开销 和 从 剖析 获得 的 稳 态 性 能 收益 之 间 存 在 着 -一 个 重要 的 性 能 平衡 。 剖 析 开 销 包括 
为 了 放置 前 析 探 针 而 对 程序 结构 进行 初始 分 析 所 需要 的 时 间 开 销 ， 以 及 接着 进行 的 实际 收集 剖 
析 数 据 的 开销 。 收 益 是 指 由 于 更 好 地 优化 代码 所 带 来 的 执行 时 间 的 减少 。 对 于 传统 的 基于 剖析 
的 离线 优化 方法 ， 这 些 开销 只 被 支付 一 次 ,一 般 是 在 程序 开发 的 较 上 晚 阶段 ， 如 在 发 布 产品 前 对 代 
码 进行 优化 的 时 候 。 因此， 程序 的 开发 者 会 根据 在 连续 的 剖析 阶段 或 重 编 译 阶段 之 间 的 较 长 
“转向 ”时 间 ， 来 感受 性 能 开销 中 的 代价 。 不 过 ， 在 把 优化 后 的 程序 部 署 之 后 ， 就 没有 额外 的 性 
能 开销 了 ， 并 且 在 每 次 运行 程序 代码 时 就 会 产生 收益 。 

当 使 用 动态 优化 时 ， 在 每 次 运行 客户 程序 时 都 会 有 开销 。 这 些 开销 包括 : 为 安插 前 析 探 针 而 
进行 的 程序 分 析 开 销 ， 以 及 在 安插 探 针 后 收集 剖析 数据 的 开销 。 当 然 ， 在 动态 优化 环境 中 ， 执 行 
优化 后 的 代码 所 产生 的 收益 必须 胜 过 优化 所 带 来 的 开销 。 在 FX132 系统 中 ( 见 3. 10 节 ) ， 使 用 
了 一 个 有 趣 的 折 中 解决 方案 ， 其 中 所 有 的 代码 翻译 和 优化 是 在 程序 的 多 次 运行 之 间 完 成 的 ， 并 
且 优 化 后 的 代码 在 各 次 运行 之 间 被 保存 于 磁盘 上 。 
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a) 传统 的 剖析 被 应 用 于 程序 的 多 次 运行 
部 分 “发 现 ”代码 





b) 在 动态 优化 虚拟 机 中 的 在 线 剖 析 
图 4-11 使 用 程序 剖析 


由 于 优化 所 涉及 的 折 中 、 不 同 的 虚拟 机 应 用 和 可 能 执行 的 优化 的 多 样 性 ， 当 在 虚拟 机 环境 
中 执行 动态 优化 时 ， 会 有 许多 有 趣 的 剖析 技术 。 在 这 一 节 中 ， 我 们 将 纵览 剖析 技术 。 其 中 一 些 技 
术 对 支持 动态 优化 的 进程 虚拟 机 会 很 有 用 ， 在 本 章 稍 后 将 进行 描述 。 还 有 一 些 技术 对 实现 高 级 
语言 虚拟 机 会 更 加 有 用 ， 它 们 将 在 第 6 章 中 描述 。 


4.2.2 剖析 的 类 型 


在 动态 优化 虚拟 机 中 ， 可 以 使 用 许多 类 型 的 剖析 数据 。 第 一 种 剖析 数据 简单 地 反映 不 同 代 
码 区 域 的 执行 频 度 。 利 用 这 类 信息 ， 可 以 决定 对 指定 区 域 应 该 进行 何 种 级 别 的 优化 。 频 繁 执行 的 
代码 区 域 ， 或 者 称 热 点 ， 应 该 被 更 多 地 优化 ， 而 很 少 使 用 的 代码 可 以 较 少 地 (或 者 根本 不 ) 被 
优化 ， 因 为 优化 过 程 本 身 是 耗 时 的 并 且 会 引起 潜在 的 性 能 下 降 。 例 如 ， 在 图 4-4 所 示 的 框架 中 ， 
一 段 代码 序列 直到 它 确定 为 “ 热 的 ” 才 可 以 被 解释 ， 之 后 再 进行 二 进 制 翻 译 以 加 速 将 来 的 仿真 。 

第 二 种 重要 的 剖析 数据 类 型 是 基于 控制 流 (分 支 和 跳 转 ) 的 可 预测 性 ， 其 中 齐 析 程序 收集 可 以 
用 来 确定 程序 动态 执行 行为 方面 的 控制 流 统计 信息 。 这 类 信息 可 以 作为 聚集 和 重 排 基本 块 形成 更 大 
的 频繁 执行 的 代码 单元 的 基础 ， 如 图 4-3 所 示 的 超 块 。 这 些 更 大 的 代码 单元 比 单个 基本 块 提供 更 多 
的 优化 机 会 ,并且 由 于 指令 cache 局 部 性 的 作用 ， 组 成 大 的 代码 单元 也 可 以 带 来 更 好 的 性 能 。 

其 他 类 型 的 剖析 数据 可 以 用 来 指导 特定 的 优化 。 这 类 剖析 数据 可 以 集中 在 数据 或 者 地 址 值 
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上 。 例 如 ， 如 果 一 个 优化 取决 于 加 载 和 存储 地 址 是 否 被 对 齐 到 自然 边界 上 46.4), BA 
加 载 和 存储 地 址 的 剖析 信息 就 能 够 决定 是 否 满足 这 个 条 件 ( 至 少 在 大 多 数 时 修 ) ， 以 及 是 否 应 该 
应 用 这 个 优化 。 或 者 ， 如 果 一 个 程序 变量 在 大 多 数 (或 者 全 部 ) 情况 下 具有 相同 的 值 ， 那 么 程 
序 代 码 可 以 针对 这 种 普遍 情 况 被 流 线 化 (或 者 “专门 化 ”)。 在 本 节 中 将 不 进一步 讨论 这 些 特定 
的 剖析 数据 类 型 ， 而 是 到 特定 的 优化 技术 需要 它们 时 才 讨 论 。 

几乎 所 有 的 动态 翻译 /优化 系统 都 普遍 使 用 上 述 的 前 两 类 剖析 信息 ， 这 里 需要 再 做 些 说 明 。 
图 4-12 显示 了 一 个 程序 的 控制 流 图 。 这 个 控制 流 图 包括 与 程序 的 基本 块 〈 定 义 见 2.6 节 ) 相对 
应 的 结 点 ， 和 连接 各 基本 块 并 表示 控制 流 〈 由 于 分 支 和 跳 转 ) 的 边 。 图 中 ， 基 本 块 A 结束 于 一 
个 条 件 分 支 ; 分支 的 失败 路 径 转移 到 基本 块 B， 而 分 支 的 满足 路 径 则 转移 到 基本 块 C。 





a) 基本 块 剖析 ( 或 者 结 点 剖析 ) b) Mt 
图 4-12 应 用 于 控制 流 图 的 剖析 。 方 框 〈 结 点 ) BAR, A CA) 指明 控制 转移 


为 了 确定 热点 代码 区 域 ， 应 该 剖析 每 个 基本 块 ， 并 且 计 算 在 某 时 间 间 隔 内 每 个 基本 块 被 执行 的 
次 数 ; 那些 执行 最 频繁 的 块 就 是 热点 。 基 本 块 剖析 〈 或 者 是 图 术语 中 的 结 点 剂 析 ) 在 图 4-12a 中 说 
明 。 在 该 例 中 ， 包 含 在 结 点 中 的 数字 是 相应 基本 块 被 执行 的 次 数 ， 块 A、B 和 E 是 最 热 的 块 。 

另外 , 图 4-12b 中 显示 了 边 剖 析 。 边 剖析 对 每 条 控制 流 边 所 经 过 的 次 数 进行 计数 。 在 该 图 
中 ， 通 过 在 每 条 边 上 标记 所 经 过 的 次 数 来 表示 边 剖 析 。 

通常 边 比 结 点 要 多 ， 因 此 对 所 有 的 边 进行 剖析 似乎 代价 要 高 一 些 。 不 过 ， 已 经 开发 出 一 些 
算法 来 显著 减少 为 计算 完整 的 边 神 析 所 必须 探测 的 边 数 (Ball 和 Larus 1994) 。 此 外 ， 边 剖析 数 
据 能 提供 比 基 本 块 剖 析 更 精确 的 程序 执行 视图 ; 即 基 本 块 剖 析 可 以 由 边 齐 析 推 出 ， 它 通过 对 每 
个 基本 块 的 入 边 上 的 数 求 和 〈 或 者 对 出 边 上 的 数 求 和 ) 而 得 。 例 如 ， 在 图 4-12b 中 ， 基 本 块 D 
一 定 被 执行 25 次 ， 这 通过 把 到 基本 块 D 的 入 边 上 的 数 相 加 (12 加 13) 而 得 到 。 注 意 反 过 来 则 
不 一 定 对 ， 即 边 剖 析 并 不 总 是 能 从 基本 块 〈 结 点 ) 剖析 推导 出 来 。 

另 一 种 基于 数据 流 的 剖析 类 型 是 路 径 刘 析 (Ball 和 Larus 1996), MAMAS, € 
通过 对 包含 多 条 边 而 不 是 单个 边 的 路 径 计数 而 得 。 对 于 某 些 优化 ， 例 如 超 块 的 形成 ， 路 径 剖 析 
(至 少 在 理论 上 ) 是 最 合适 的 剖析 类 型 ， 因 为 被 排 成 一 个 超 抉 的 各 基本 块 应 该 包含 在 一 条 经 常 执 
行 的 路 径 中 。 尽 管 收集 路 径 剖 析 数 据 并 不 一 定 比 收集 边 剖 析 复 杂 ， 但 是 为 了 确定 在 哪里 安插 剖 
析 探 针 ， 需 要 更 多 预先 的 程序 分 析 。 这 种 预先 分 析 对 于 大 多 数 动态 优化 系统 可 能 是 不 切实 际 的 ， 
因为 并 不 能 事先 知道 足够 多 的 程序 结构 。 一 种 找 出 频繁 执行 的 路 径 的 启发 式 方法 是 简单 地 跟踪 
频繁 执行 的 边 的 序列 。 尽 管 这 种 启发 式 并 不 总 能 找 出 最 频繁 的 路 径 ， 但 是 反例 是 相对 罕见 的 
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(Ball, Mataga 和 Sagiv 1998 ) ， 并 且 大 多 数 优化 算法 通过 使 用 一 个 基于 边 剂 析 的 启发 式 探测 来 近 
似 路 径 剖 析 。 


4.2.3 收集 剖析 


收集 剖析 的 途径 有 两 种 : 插 柱 和 采样 。 基 于 插 桩 的 剖析 通常 针对 特定 的 与 程序 相关 的 事件 ， 
并 且 对 被 剖析 事件 的 所 有 实例 进行 计数 ， 如 一 个 基本 块 被 访问 的 次 数 或 者 条 件 分 支 的 满足 相对 
于 不 满足 的 次 数 。 一 般 而 言 ， 可 以 同时 监控 许多 不 同 的 事件 。 监 控 可 以 通过 向 被 剖析 的 代码 中 插 
人 探测 指令 或 者 通过 使 用 底层 的 剖析 硬件 收集 数据 来 实现 。 使 用 软件 插 桩 会 显著 减缓 被 剖析 的 
程序 ,但 是 它 可 以 在 任何 硬件 平台 上 执行 。 硬 件 插 桩 方式 虽然 开销 小 ， 但 是 却 不 能 被 当前 的 硬件 

台 很 好 地 支持 。Intel 安 腾 平 台 是 一 个 上 典型 的 例外 (Choi 等 2002)。 此 外 ,硬件 插 桩 通常 没有 
软件 播 桩 灵活 ， 因 为 要 剖析 的 程序 事件 类 型 被 内 置 到 硬件 中 。 

对 于 基于 采样 的 剖析 ， 程 序 以 未 被 修改 的 形式 运行 ， 并 且 在 固定 或 者 随机 的 时 间 间 隔 内 ， 中 断 程 
序 同 时 捕获 与 程序 相关 的 事件 实例 〈 见 图 4-13) 。 例 如 ， 可 以 在 分 支 满足 〈 跳 转 ) 处 采样 程序 计数 器 
的 值 。 在 进行 许多 这 样 的 采样 之 后 ， 就 形成 了 程序 的 统计 描述 图 ， 例 如 哪些 是 程序 的 热点 或 者 热 边 。 

ee 


陷阱 采样 PC 








事件 增加 






图 4-13 用 于 采样 的 硬件 。 一 个 事件 计数 器 触发 一 个 陷阱 在 陷阱 出 现时 所 捕获 的 PC 会 产生 采样 


在 两 种 剖析 方法 之 闻 的 一 个 重要 平衡 就 是 : 播 桩 可 以 在 一 个 较 短 的 时 间 周 期 内 收集 给 定数 
目的 剖析 数据 点 ， 但 是 普遍 使 用 的 软件 插 桩 在 剖析 进行 的 过 程 中 减缓 了 程序 的 执行 。 相 比 之 下 ， 
采样 对 程序 的 减缓 则 少 得 多 ， 至 少 给 用 户 的 感觉 是 这 样 的 , 但 是 它 需 要 较 长 的 时 间 间 隔 来 收集 
相同 数量 的 剖析 信息 。 当 然 ， 这 种 减缓 取决 于 采样 间隔 (典型 的 采样 间隔 可 能 是 上 千 条 指令 )。 

在 每 个 数据 点 的 基础 上 ， 采 样 通常 比 插 柱 有 更 高 的 绝对 开销 ， 因 为 它 会 引起 到 剖析 收集 软件 的 
陷阱 。 但 是 ， 这 种 开销 可 以 分 捧 到 整个 相当 长 的 时 间 间 隔 肉 ， 因 此 在 前 析 过 程 中 用 户 能 感知 到 的 程 
序 减缓 是 较 小 的 。 此 外 ,在 发 信号 给 用 户 级 剖析 软件 之 前 ， 可 以 收集 和 缓存 多 个 采样 (Dean 等 
1997) 。 对 于 播 柱 ， 则 会 快速 地 进行 剖析 ， 然 后 执行 优化 ， 最 后 完全 或 部 分 地 移 除 插 桩 软件 。 

首选 娜 种 剖析 技术 取决 于 优化 过 程 发 生 在 仿真 谱系 (E 4-5) 的 哪个 地 方 。 对 于 解释 阶段 ， 
软件 插 桩 可 能 是 唯一 的 选择 ， 并 且 我 们 将 会 看 到 ， 在 那 的 选项 其 至 也 是 相当 有 限 的 。 对 于 可 能 从 
进一步 的 优化 中 获 益 的 优化 后 的 翻译 代码 ， 或 者 在 不 需要 初始 翻译 的 动态 优化 系统 中 ， 选 项 种 
类 则 更 加 广泛 。 通常， 动态 优化 系统 使 用 插 桂 ， 因 为 它 人 允许 全 局 优化 过 程 从 比较 缓慢 的 、 未 优化 
的 代码 更 迅速 地 转化 到 高 度 优化 的 版 本 。 当 一 个 运行 很 久 的 程序 已 经 被 优化 得 很 好 ， 但 是 对 其 
进行 进一步 的 高 级 优化 又 可 能 获 益 的 时 候 ， 采 样 就 更 加 有 用 了 。 在 下 面 的 小 节 中 ， 我 们 将 纵览 对 
被 解释 和 翻译 的 代码 的 剖析 方法 。 


4.2.4 解释 期 间 的 剖析 
在 解释 期 间 剖 析 时 ， 要 考虑 两 个 关键 点 ; 一 个 是 源 指令 实际 上 是 作为 数据 来 访问 的 ， 男 一 个 
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是 解释 器 例 程 是 正 被 执行 的 代码 。 因 此 ， 任 何 谢 析 代码 必须 被 添加 到 解释 器 例 程 中 。 这 意味 着 如 
果 剖 析 是 应 用 到 特定 的 指令 类 型 〈 如 操作 码 ) 而 不 是 特定 的 源 指令 ， 则 前 析 是 最 容易 完成 的 。 
剖析 也 可 以 被 应 用 于 在 解释 过 程 中 容易 识别 的 某 些 指令 类 别 ， 例 如 我 们 将 会 看 到 ， 向 后 分 支 的 
目标 经 常 是 作为 形成 更 大 翻译 块 的 起 始点 。 

为 了 在 解释 时 进行 基本 块 剖 析 ， 剂 析 代 码 应 该 (在 PC 被 更 新 之 后 ) 被 添加 到 所 有 的 控制 转 
移 〈 分 支 和 跳 转 ) 指令 中 。 因 为 根据 定义 ， 紧 跟 在 这 些 指 令 后 的 指令 会 开始 新 的 基本 块 。 对 每 
个 跳 转 的 目标 指令 所 执行 的 次 数 进行 计数 ， 会 构成 一 个 基本 块 剖 析 。 对 于 边 训 析 ， 会 剖析 相同 的 
控制 转移 指令 ， 但 是 用 控制 转移 指令 的 PC 和 目标 PC 来 定义 一 条 特定 的 边 。 

剖析 数据 保存 在 一 张 表 中 ， 该 表 通 过 控制 转移 目标 的 源 PC 值 (基本 块 剖析 ) 或 者 通过 定义 
一 条 边 的 两 个 PC 值 来 访问 。 这 张 表 与 在 仿真 过 程 中 使 用 的 PC 映射 表 (在 2.6 节 中 描述 过 ) 相 
似 ， 因 为 它 可 以 由 源 PC 来 散 列 访问 。 表 项 中 包含 基本 块 或 者 边 的 计数 。 对 于 条 件 分 支 ， 可 以 为 
跳 转 和 不 跳 转 的 情况 维护 计数 值 。 图 4-14 和 4-15 说 明了 对 条 件 分 支 的 基于 解释 的 剖析 方法 。 图 
4-14 是 针对 PowerPC 条 件 分 支 指令 的 解释 器 例 程 。 图 4-15 中 给 出 了 收集 边 剖 析 的 数据 结构 。 


Instruction function list 


branch_conditionalCinst) { 
BO = extractCinst, 25,5); 
BI = extractCinst, 20,5); 
displacement = extract(Cinst,15,14) * 4; 


// code to compute whether branch should be taken 


profile_addr = lookup(PC); 

if Cbranch_taken) 
profile_cnt(profile_addr, taken); 
PC = PC + displacement; 

Else 
profile_cnt(profile_addr, nottaken); 
PC = PC + 4; 





图 4-14 ”添加 了 剖析 代码 〈 用 斜体 字 ) 的 PowerPC 条 件 分 支 解释 器 例 程 


分 支 PC 





图 4-15 在 解释 期 间 用 来 收集 边 剖 析 的 剖析 表 。 一 条 分 支 指令 的 PC 通过 散 列 访问 
这 个 表 ; 根据 分 支 的 结果 来 增加 跳 转 或 者 不 跳 转 计数 器 


在 这 个 分 支 解释 器 例 程 中 ， 利 用 分 支 指令 的 PC 值 通 过 散 列 函数 来 查找 剖析 表 ， 接 着 更 新 剖 


析 表 中 的 表 项 。 如 果 分 支 跳 转 ， 则 增加 跳 转 计数 器 ; 否则 增加 不 跳 转 计数 器 。 作 为 另 一 种 选择 ， 
对 于 基本 块 剖 析 ， 在 分 支 解释 器 例 程 末端 的 源 PC 可 以 用 作 剖 析 表 的 关键 字 ， 并 且 每 个 PC RH 








100 BAF 





护 一 个 计数 。 

剖析 计数 器 衰减 

正如 刚才 所 述 ， 对 剖析 表 中 的 剖析 计数 的 增加 是 不 确定 的 。 实 际 上 ， 这 会 导致 一 个 明显 的 问 
题 一 一 计数 可 能 最 终 会 涝 出 其 计数 域 的 容量 。 一 个 直接 的 解决 办 法 是 使 用 饱和 计数 ， 即 当 计 数 
器 达到 它 的 最 大 值 时 ， 就 保持 该 值 不 变 。 另 一 个 改进 方法 是 通过 观察 得 到 的 : 许多 优化 方法 主要 
关心 事件 的 相对 频率 ， 如 哪些 基本 块 使 用 比较 频繁 ， 而 不 是 进行 绝对 的 计数 。 此 外 ， 当 进行 动态 
优化 的 决策 时 ， 最 近 的 程序 事件 历史 可 能 比 过 去 久远 的 历史 更 有 价值 。 

为 此 ， 可 以 引信 一 个 计数 器 “衰减 ”过 程 。 为 了 实现 计数 器 误 减 ， 训 析 管 理 软件 周期 性 地 
将 所 有 的 剖析 计数 除 以 2 〈 使 用 一 次 右 移 ) 。 在 误 减 之 后 ， 计 数 维持 它们 的 相对 值 ， 并 且 ， 当 程 
序 状 态 改变 以 及 被 剖析 的 事件 变 得 不 活 夏 时 ， 从 前 一 状态 延续 的 计数 将 最 终 衰 减 到 0。 因 此 ， 在 
任何 给 定时 间 里 ， 剂 析 计 数 反映 了 在 相对 最 近 时 期 内 的 相对 活跃 性 。 

剖析 跳 转 指令 

到 此 为 止 ， 当 前 析 控 制 流 时 ， 如 边 剖 析 ， 我 们 一 直 主 要 关心 条 件 分 支 指令 。 痢 析 间 接 跌 转 要 
略微 复杂 些 ， 因 为 可 能 会 存在 许多 目标 地 址 ， 并 且 在 某 些 情况 下 这 些 地 址 可 能 会 频繁 变化 。 例 
如 ， 从 子 程序 的 返回 跳 转 就 属于 这 种 情况 ， 这 些 子 程序 有 许多 调用 点 。 这 意味 着 一 个 跟踪 所 有 目 
标的 完整 剖析 机 制 会 比 条 件 分 支边 剖析 消耗 更 多 的 空间 和 更 多 的 时 间 。 不 过 可 以 简化 这 个 过 程 ， 
因为 可 以 注意 到 由 剖析 驱动 的 间接 跳 转 优化 主要 关注 的 是 那些 经 常 有 相同 目标 〈 或 者 少数 日 标 ) 
的 跳 转 。 因 些 ， 只 需 维护 一 张 含 有 少数 目标 地 址 的 表 〈 比方 说 一 个 或 两 个 ) ， 并 且 只 跟踪 最 近 使 
用 的 目标 。 如 果 跳 转 目标 在 大 量 的 地 址 之 间 频 繁 变化 ， 那 么 这 些 目 标的 计数 值 将 总 是 很 小 ， 这 样 
基于 频繁 的 跳 转 目标 的 优化 将 几乎 不 会 带 来 任何 好 处 。 


4.2.5 剖析 翻译 后 的 代码 


当 齐 析 翻 译 后 的 代码 时 ， 每 条 指令 都 可 以 有 它 自 己 的 自 定义 剖析 代码 。 其 中 ， 揪 和 各 条 指令 
意味 着 可 以 有 选择 地 应 用 剖析 。 这 也 意味 着 剖析 计数 器 可 以 在 插 桩 时 分 配给 每 条 静态 的 指令 ， 
以 便 能 直接 寻 址 剖析 计数 器 而 无 需 散 列 。 剖 析 计数 器 可 以 保存 在 一 个 简单 数组 中 ， 其 中 与 特定 
指令 对 应 的 数组 下 标 被 硬 编码 到 剖析 代码 中 。 

图 4-16 示意 了 针对 边 剖 析 而 在 翻译 基本 块 中 插入 探测 指令 ( 见 2.6 节 ) 。 这 里 ， 插 桩 被 放 到 
每 个 翻译 基本 块 末 端的 存根 (stub) 代码 中 。 在 本 例 中 ， 如 果 剖 析 值 超过 一 个 特定 的 门限 值 ， 或 
者 触发 器 ， 就 会 调用 优化 算法 。 把 剖析 代码 放 在 存根 区 的 一 个 好 处 是 可 以 根据 需要 容易 地 插 人 
和 移 除 剖 析 代 码 。 
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4.2.6 WHA 


软件 剖析 添加 指令 到 整个 仿真 过 程 中 。 例 如 ， 在 图 4-15 中 ， 必 须 添加 指令 ， 以 (1) 访问 散 
列表 (这 需要 获 列 函数 ， 以 及 至 少 一 条 加 载 和 一 条 比较 指令 ) M (2) 增加 适当 的 计数 (这 和 需 
要 两 条 或 更 多 的 内 存 访问 指令 ， 加 上 一 条 加 法 指令 ) 。 对 于 解释 期 间 的 剖析 ， 可 能 会 增加 10% - 
20% 的 额外 开销 ， 因 为 解释 还 需要 为 每 条 被 解释 的 源 指 令 执 行 许多 目标 指令 。 而 针对 翻译 代码 的 
剖析 ， 如 果 用 直接 可 寻 址 的 计数 器 来 取代 剖析 表 的 查找 ， 则 可 能 需要 更 少 的 指令 ， 但 是 其 相对 开 
销 仍然 显著 高 于 解释 期 间 的 前 析 ， 这 是 因为 翻译 代码 本 身 要 比 解 释 代 码 更 加 有 效 。 除 了 性 能 开 
销 之 外 ， 齐 析 会 导致 用 来 维护 表 的 内 存 开 销 。 例 如 ， 像 图 4-15 SAO, HE SAE RH 
析 的 指令 维护 四 个 字 的 数据 。 

可 以 通过 许多 方法 来 降低 剖析 开销 。 一 种 方法 是 通过 选择 一 个 更 小 的 关键 点 集合 来 减少 插 
桩 点 的 数量 ， 或 许 是 利用 启发 式 方法 ， 并 且 将 使 用 在 这 些 点 上 收集 到 的 数据 来 计算 其 他 点 的 剖 
析 计 数 。 另 一 种 方法 是 以 代码 复制 为 基础 的 ， 该 方法 对 于 相同 -ISA 的 优化 尤其 有 吸引 力 ， 将 在 
4.7 节 中 进行 描述 。 

4.3 优化 翻译 块 


正如 在 本 章 的 引言 中 指出 的 那样 ， 经 常 存 在 一 种 二 部 策略 来 优化 翻译 代码 块 。 策 略 的 第 一 
部 分 是 利用 支配 的 控制 流 知识 来 提高 内 存 的 局 部 性 ， 这 是 通过 将 经 常 执行 的 基本 块 序列 放 到 连 
续 的 内 存 位 置 来 实现 的 。 实 际 上 ， 这 些 基本 块 序列 通常 是 超 块 。 在 策略 的 第 二 部 分 是 优化 扩大 后 
的 翻译 块 ， 重 点 优化 那些 经 常 执行 的 代码 序列 。 也 就 是 说 ， 如 果 激 着 经 常 执行 的 代码 序列 而 优 
化 ,会 提高 性 能 ; 反之 ， 优 化 在 不 常 执行 的 序列 上 可 能 会 有 性 能 损失 。 尽 管 策略 的 这 两 部 分 实际 
上 是 相对 独立 的 ， 但 是 它们 都 是 有 用 的 ， 并 且 经 常 应 用 在 同一 个 系统 中 。 一 个 常见 的 方法 是 首先 
形成 一 个 局 部 化 的 块 ， 然 后 将 该 块 作为 一 个 单元 进行 优化 。 下 面 ， 我 们 将 按照 这 个 顺序 进行 


讨论 。 
4.3.1 提高 局 部 性 


有 两 种 存储 局 部 性 。 第 一 种 是 空间 局 部 性 ， 即 在 访问 一 个 存储 位 置 后 ， 会 即刻 访问 相 邻 的 存 
储 位 置 。 第 二 种 是 时 间 局 部 性 ， 即 一 个 被 访问 的 存储 位 置 会 即刻 被 再 次 访问 。 取 指 操作 无 疑 具有 
高 度 的 空间 局 部 性 和 时 间 局 部 性 ， 并 且 局 部 性 越 高 ， 则 取 指 硬件 执行 得 越 好 。 通 过 重 排 代码 在 内 
存 中 放置 的 方式 ， 可 以 进一步 提高 两 种 类 型 的 局 部 性 。 

下 面 我 们 通过 一 个 例子 来 说 明 提高 代码 局 部 性 的 方法 和 好 处 。 图 4-17a 显示 了 一 个 最 初 被 放 
置 在 内 存 中 的 代码 区 域 。 基 本 块 用 大 写字 母 标记 ， 并 且 显 示 了 分 支 指令 。 其 他 指令 用 水 平 线 表 
示 。 图 4-17b 是 同一 代码 序列 的 控制 流 图 ， 图 中 给 出 了 边 剖析 信息 。 代 码 中 最 经 常 执行 的 路 径 是 
A、D、E、G。 块 下 很 少 被 执行 。 

首先 考虑 示例 代码 怎样 映射 到 cache 行 ; 这 揭示 出 在 典型 的 高 性 能 处 理 器 中 可 能 损失 性 能 的 
两 种 方式 。 图 4-18 显示 了 一 个 cache 行 ， 它 包含 基本 块 E 和 下 之 间 边 界 上 的 四 条 指令 。 由 于 块 F 
很 少 被 使 用 ， 所 以 这 一 行内 的 可 用 局 部 性 〈 空 间或 时 间 ) 也 相对 较 少 ; 然而 ， 整 个 行 被 放 在 
cache 中 ,仅仅 是 为 了 保存 来 自 块 EE 的 单个 指令 。 如 果 将 块 F 中 的 指令 所 消耗 的 cache 空间 用 于 
保存 其 他 更 为 频繁 使 用 的 指令 ， 将 会 更 好 地 提高 cache 局 部 性 。 同 样 ， 当 从 cache 中 取 入 这 一 行 
时 ， 四 条 指令 中 只 有 一 条 是 有 用 的 。 性 能 可 能 会 由 于 相对 低 的 取 指 带宽 而 有 所 损失 。 
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Br cond1 == true 
一 一 8 一 一 

Br cond2 == false 
x 

Br uncond 

二 一 一 一 

-- Br cond3 == true 


i- Br uncond 





i Br cond4 == true 





a) 基本 块 在 内 存 中 的 初始 排列 b) 对 示例 代码 的 边 剖 析 
图 4-17 ”代码 序列 示例 


图 4-18 包含 来 自 于 基本 块 E 和 FF 的 cache fF 


为 了 提高 性 能 ， 可 以 根据 剖析 信息 来 重 排 内 存 中 块 的 布局 (Pettis 和 Hansen 1990) 。 图 4-19 
显示 了 一 个 重 排 后 的 布局 。 为 了 实现 图 中 的 新 布局 ， 某 些 条 件 分 支 测试 被 反 转 。 例 如 ， 在 块 A 
末端 的 测试 从 真 变 为 假 。 此 外 ， 某 些 无 条 件 分 支 可 能 被 一 起 删除 ， 例 如 ， 结 束 块 E 的 分 支 。 同 
样 ， 重 排 过 程 也 会 处 理 那 些 很 少 被 使 用 的 块 ， 如 块 F， 可 以 将 它们 放置 在 为 这 种 很 少 被 使 用 的 块 
保留 的 内 存 区 域 中 。 这 些 块 通常 不 会 消耗 指令 cache 空间 。 经 过 一 一 一 一 
系列 重 排 之 后 ， 最 终 可 以 提高 取 指 效率 ， 例 如 ， 当 执行 指令 块 E 和 一 一 一 
G 中 的 代码 序列 时 ， 它 们 总 是 被 顺 次 执行 。 Br condi == false 

提高 空间 局 部 性 〈 并 且 提 供 其 他 优化 机 会 ) 的 另 一 种 方法 是 进 | 二 

行 过 程 内 联 (Scheifler 1977 ) 。 对 于 传统 的 过 程 内 联 ， 过 程 体 被 复 : 
制 并 放 到 其 调用 /返回 点 。 过 程 内 联 在 图 4-20 中 说 明 ， 这 里 过 程 xyz 
从 两 个 位 置 被 调用 (图 4-20a) 。 在 进行 内 联 之 后 ， 过 程 xyz 的 代码 
被 复制 并 放置 在 两 个 调用 点 处 ， 如 图 4-20b 所 示 。 原 代码 中 过 程 xyz 
的 调用 和 返回 指令 被 移 除 ， 同 时 还 可 能 要 移 除 在 调用 和 返回 附近 的 
寄存 器 存储 /恢复 指令 。 因 此 ， 内 联 不 仅 提高 了 指令 流 中 的 空间 局 
部 性 ， 而 且 消 除了 许多 调用 和 返回 开销 。 

在 动态 优化 系统 中 ， 过 程 内 联 经 常 以 动态 的 形式 来 实现 ， 其 
实现 基于 运行 时 发 现 的 经 常 执行 的 路 径 。 这 引出 了 动态 内 联 或 者 
部 分 过 程 内 联 的 概念 ， 它 是 基于 与 2. 6. 3 节 讨 论 的 动态 基本 块 相 
似 的 概念 。 其 中 的 重点 是 : 由 于 代码 是 在 运行 时 逐渐 发 现 的 ， 所 
以 发 现 并 内 联 一 个 包含 多 个 控制 流 路 径 的 完整 过 程 经 常 是 不 切实 
际 的 。 例如， 在 图 4-20a 中 ， 当 从 第 一 个 调用 点 调用 过 程 xyz 时 ， 
执行 的 路 径 可 能 流 经 块 X AY; 当 从 第 二 个 调用 点 调用 它 时 ， 执 ”图 4-19 重 排 来 提高 局 部 性 
行路 径 可 能 流 经 块 X 和 Z。 当 采用 如 图 4-20c 所 示 的 部 分 过 程 内 的 代码 示例 
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联 时 ， 只 有 特定 的 动态 路 径 被 内 联 到 调用 点 处 。 

不 像 之 前 描述 过 的 简单 代码 重 排 ， 当 相同 的 过 程 从 多 个 不 同位 置 被 调用 时 ， 内 联 可 能 会 增 
加 总 的 代码 大 小 。 这 可 能 对 指令 cache 的 性 能 有 一 个 负面 影响 。 它 也 可 能 增加 寄存 器 的 “压力 ”， 
即 增加 内 联 后 的 代码 区 域 对 寄存 器 的 和 需求。 因此， 部 分 过 程 内 联通 常 只 适用 于 那些 频繁 被 调用 
并 且 相对 较 小 的 过 程 -一 许多 库 例 程 都 满足 这 个 标准 。 可 以 使 用 前 析 信息 来 识别 哪些 过 程 适合 
于 内 联 (Chang 等 1992; Ayers, Schooler 和 Gottlieb 1997) 。 


—A 
| 二 一 2 一 一 |; 
一 二 -一 
二 一 一 一 一 一 一 一 
Call proc xyz | 
二 一 一 一 _  . 
Å K 
Proc xyz -一 ~ 
一 一 天 -一 :一 天 二 | 一 一 一 一 
_ OO = | = | 
=r 二 过 一 一 一 过 一 | —— i 
Call proc xyz Return 4 1 
一 一 一 -一 一 一 -一 
a) 一 段 从 两 个 调用 点 调用 b) 对 于 传统 的 过 程 内 联 ， 过 程 c) 对 于 部 分 过 程 内 联 ， 只 在 
一 个 过 程 的 代码 序列 B 被 复制 并 且 被 放置 在 项 来 每 一 调用 点 处 内 联 特定 的 
的 调用 点 处 控制 流 路 径 
图 4-20 HARK 


在 传统 的 优化 编译 器 中 ， 使 用 了 一 些 实现 代码 重 排 和 内 联 的 特定 算法 。 在 这 里 ， 我 们 并 不 详 
细 描 述 这 些 传统 的 方法 ， 而 是 仅 考虑 那些 在 动态 翻译 和 优化 过 程 中 有 用 的 方法 。 

我 们 现在 描述 三 种 根据 控制 流 来 重 排 基 本 块 的 方法 。 第 一 种 方法 ， 踪 迹 的 形成 ， 可 以 从 刚才 的 
讨论 中 自然 地 引出 。 然 而 ， 第 二 种 方法 ， 超 块 的 形成 ， 在 虚拟 机 实现 中 使 用 得 更 为 广泛 ， 因 为 我 们 
将 会 看 到 超 块 更 适合 于 基本 块 间 的 优化 。 第 三 种 安排 代码 的 方法 是 使 用 树 闭 〈tree group) ， 它 是 超 块 
的 泛 化 (generalization) ， 它 在 控制 流 难 以 被 预测 时 是 很 有 用 的 ， 并 且 它 提供 了 更 加 广阔 的 优化 范围 。 
在 下 面 的 各 小 节 中 ， 我 们 依次 讨论 踪迹 、 超 块 以 及 树 簇 ， 然 后 讨论 基于 踪迹 和 超 块 的 优化 方法 。 


4. 3.2 踪迹 


这 种 代码 重 排 优化 实质 上 是 将 程序 分 成 许多 大 块 的 连续 指令 序列 ， 其 中 这 些 大 块 由 多 个 基 
本 块 组 成 (Fisher 1981; Lowney 等 1993)。 在 图 4-17 的 例子 中 ， 序 列 ADEG 是 最 经 常 执行 的 路 
径 ， 并 且 作 为 一 个 单独 的 连续 代码 块 放 在 内 存 中 。 这 个 序列 形成 了 一 个 踪迹 9 一 一 一 个 连续 的 基 
本 块 序列 。 在 这 个 例子 中 第 二 个 相对 较 少 使 用 的 踪迹 是 BC. SRF 单独 形成 了 一 个 只 包含 一 个 基 
本 块 的 几乎 不 被 使 用 的 踪迹 。 


O 有 时 术语 踪迹 也 被 用 于 超 块 。 例 如 踪迹 缓存 中 的 足迹 (Rotenberg, Bennett 和 Smith 1996) 可 以 更 确切 地 描述 
为 超 块 (所 有 的 超 块 都 是 踪迹 ， 但 并 不 是 所 有 的 踪迹 都 是 超 块 ) 。 
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应 该 清楚 ， 边 剖析 数据 对 确定 频繁 经 过 的 路 径 是 有 用 的 。 使 用 离线 的 剖析 方法 ( 见 图 
4-11a) ， 一 般 可 以 通过 如 下 步 又 来 形成 踪迹 。 

1. 在 程序 的 一 次 或 多 次 执行 过 程 中 ， 通 过 使 用 测试 数据 来 收集 剖析 数据 。 

2. 利用 剖析 数据 ， 找 出 最 经 常 执行 的 、 但 还 不 属于 某 个 踪迹 的 基本 块 ， 以 这 个 基本 块 作 为 
踪迹 的 起 点 。 

3. 利用 边 剖 析 或 者 路 径 剖 析 数 据 ， 从 起 点 开始 ， 沿 着 最 经 常 走 的 控制 路 径 来 收集 这 条 路 径 
上 的 基本 块 ， 直 到 遇 到 一 个 终止 条 件 。 终 止 条 件 可 以 是 到 达 一 个 已 属于 另 一 个 踪迹 的 基本 块 ， 或 
者 是 到 达 一 个 过 程 调 用 /返回 的 边界 (如 果 该 过 程 没有 被 内 联 )。 在 4.3.4 节 中 给 出 了 完整 的 终 
止 条 件 集 。 

4. 将 基本 块 收集 成 一 个 踪迹 ， 根 据 需要 会 反 转 分 支 测试 、 移 除 / 添 加 无 条 件 分 支 。 

5. 如 果 所 有 的 指令 都 已 在 某 个 踪迹 中 ， 则 结束 ; 否则 转 到 步骤 2。 

如 果 我 们 对 图 4-17 的 例子 执行 这 个 算法 ， PEN A 
那么 我 们 从 块 A 开始, 经 过 D ME BIG 停止。 _ 


这 里 ， 我 们 使 用 循环 结束 分 支 作 为 终止 条 件 经 an dooms 
常 如 此 ) 。 然 后 下 一 个 踪迹 从 B 开始 并 且 终止 于 Traco 2 esses VRL 
C. RJA, WFH PERT, 421 举 Jels Jo 
例 说 明了 控制 流 图 的 踪迹 ， 当 这 些 踪迹 排列 在 内 ， ， Nog TD ， 
存 中 时 ， 它 们 将 像 图 4-19 那样 。 人 poms i 
在 动态 环境 中 (如 图 4-11b)， 可 以 适当 修改 | 
上 述 的 踪迹 形成 过 程 ， 而 以 渐 增 的 方式 ， 随 着 热 o oa 
点 代码 区 域 的 发 现 ， 来 构造 踪迹 。 然 而 在 实际 中 ， Ea A 
像 刚才 描述 的 踪迹 ， 在 当今 的 动态 翻译 /优化 系统 97 aT ae a al 


中 并 没有 被 普遍 使 用 ; 普遍 使 用 的 是 超 块 和 树 簇 ， 
因此 我 们 将 动态 踪迹 的 形成 推迟 到 下 一 节 中 讨论 。 图 4-21 利用 边 剖 析 或 者 将 基本 块 收集 成 踪迹 


4.3.3 EH 


一 种 替代 踪迹 的 广泛 使 用 的 方案 是 超 块 (Hwu 等 1993 ) ; 在 结构 上 ， 超 块 只 有 一 个 在 顶部 
的 人 口 而 没有 边 人 口 。 相 反 ， 踪 迹 可 能 有 边 人 口 和 边 出 口 。 例 如 ， 在 图 4-21 中 ， 踪 迹 ADEG $ 
含 一 个 从 块 D 退出 的 边 出 口 和 两 个 进入 块 G 的 边 和 人 口 。 在 4.5.3 节 中 ， 我 们 将 会 看 到 ， 禁 止 出 
现 边 人 口 可 以 简化 之 后 的 代码 优化 。 

如 果 使 用 像 构 造 踪迹 那样 的 方式 来 构造 超 块 ， 可 能 最 初 形成 的 一 些 超 块 相 对 很 小 ; 例如 ， 在 
图 4-22a H, ADE, BC, F 和 G 形成 了 一 个 完整 的 超 块 集合 。 这 些 块 比 踪 迹 小 ， 并 且 在 某 些 情 况 
下 ， 会 由 于 太 小 而 不 能 提供 许多 优化 的 机 会 。 不 过 ， 通 过 允许 某 些 基 本 块 重复 出 现 多 次 可 以 构成 
更 大 的 超 块 。 这 在 图 4-22b 中 有 说 明 ， 图 中 已 形成 了 较 大 的 超 块 。 这 里 ， 超 块 ADEG 包含 了 最 常 
经 过 的 基本 块 序列 HEA 4-12 中 给 出 的 剖析 信息 ) 。 现 在 ， 因 为 超 块 ADEG 中 的 块 G 只 能 通 
过 一 个 边 人 口 到 达 ， 所 以 块 G 被 复制 以 形成 包含 BCG A FG 的 超 块 。 为 了 形成 其 他 超 块 ， 而 在 
一 个 超 块 未 端 复制 代码 的 过 程 ， 称 为 尾部 复制 。 


4.3.4 动态 超 块 的 形成 


超 块 和 踪迹 一 样 可 以 通过 由 剖析 驱动 的 静态 算法 来 构造 ; 即 首先 通过 使 用 测试 输入 数据 来 
收集 剖析 信息 ， 然 后 作为 静态 编译 步骤 的 一 部 分 构造 所 有 的 超 块 。 然 而 ， 由 于 超 块 是 虚拟 机 实现 


动态 二 进 制 优化 





的 一 种 普遍 的 选择 并 且 它 们 是 在 运行 时 形成 的 ， 因 此 我 们 将 只 详细 考虑 它们 的 动态 形成 。 其 中 
的 关键 点 是 它们 随 着 源 代码 的 仿真 而 渐 增 地 形成 。 





pi 
| | | a | 
bee E : bo . 
nae ko o o Aa = 
el à E | B| 3 iz 
ToN ` : a7 4 POTTY J 3 then 27y 
gi p. a 4 o pim ‘0 X : ¥ a 
f | 下 d g | | ， acer G ft 
Bn ee oe. Ti AE ee Mh Me 
TITIR De sca E Sor ; 可 : 
于 二 ssc 
ba aad ae eS a: 
Y TES ¥ i Y 
) 有 重复 代码 的 超 块 (如 块 G) 
a) 没有 重复 代码 的 超 块 大 且 能 提供 更 多 优化 机 会 


图 4-22 ” 超 块 。 超 块 是 仅 有 一 个 人 口 点 或 多 个 出 口 点 的 代码 区 域 


使 用 超 块 的 一 个 复杂 性 是 由 基本 块 复制 所 引起 的 更 多 的 选择 ， 尤 其 是 选择 何 时 终止 一 个 超 
块 的 构造 ， 这 样 随 之 出 现 了 许多 启发 式 方法 。 关 于 动态 超 块 的 形成 有 三 个 关键 问题 ， (1) BR 
应 该 从 代码 中 的 哪些 点 开始 ? (2) 当 构造 超 块 时 ， 下 一 个 基本 块 应 该 是 哪 一 个 ? (3) 超 块 应 该 
在 哪些 点 终止 ? 我 们 将 依次 讨论 每 一 个 问题 ， 重 点 关注 在 实际 中 效果 比较 好 的 那些 启发 式 方 
法 上 。 

起 始点 。 

通常 ， 超 块 应 该 从 被 频繁 使 用 的 基本 块 开始 。 因 此 ， 当 代码 最 初 被 仿真 时 ， 需 要 通过 解释 或 
者 简单 的 基本 块 翻译 来 收集 剖析 信息 ， 以 便 确 定 那些 被 频繁 使 用 的 、 将 作为 超 块 起 始点 的 基本 
块 。 为 此 ， 有 两 种 确定 剖析 点 的 方法 。 一 种 是 简单 地 剖析 所 有 基本 块 。 另 一 种 是 使 用 基于 程序 结 
构 的 启发 式 方法 来 选择 一 个 有 限 的 候选 起 始点 集合 ， 然 后 只 对 那些 点 进行 剖析 。 这 种 启发 式 方 
法 使 用 逆向 分 支 的 目标 作为 候选 起 始点 。 被 频繁 使 用 的 代码 将 很 可 能 是 循环 的 一 部 分 ， 并 且 每 
个 循环 的 顶端 是 逆向 分 支 的 目标 。 另 一 个 启发 式 方法 是 使 用 一 个 从 现存 的 超 块 离开 的 弧 。 这 些 
弧 是 比较 好 的 候选 者 ， 因 为 ， 根 据 定 义 ， 我 们 知道 现存 的 超 块 是 热 的 ， 并 且 某 些 出 口 点 也 会 是 热 
的 (尽管 可 能 比 原始 的 基本 块 略 微 差 一 些 ) 。 另 外 ， 出 口 点 经 常 不 是 逆向 分 支 的 目标 ， 并 且 相反 
会 被 第 一 种 启发 式 方法 所 忽略 。 使 用 确定 候选 起 始点 的 启发 式 方法 将 显著 减少 初始 被 剖析 的 点 
的 数目 ， 同 时 也 减少 了 随 着 渐 增 式 构造 的 进行 而 必须 监控 的 “热点 ”的 数目 。 

不 管 如 何 选择 前 析 的 候选 起 始点 ， 大 多 数 超 块 构造 方法 都 定义 了 一 个 启动 门限 值 。 当 一 个 
被 剖析 的 基本 块 的 执行 频率 达到 这 个 门限 时 ， 它 就 开始 一 个 新 的 超 块 。 在 IA-32 EL 中 (Baraz 等 
2003) ， 剖 析 一 直 持 续 进行 ， 直 到 一 些 热 点 基本 块 达到 这 个 门限 (或 者 直到 一 个 基本 块 达 到 门限 
的 两 倍 ) ， 在 达到 门限 值 时 ， 就 开始 构造 超 块 。 启 动 门限 值 的 确定 依赖 于 先前 讨论 的 、 涉 及 解释 
和 翻译 开销 的 分 阶段 仿真 的 折 中 ; 典型 的 门限 值 是 执行 几 十 到 几 百 次 。 

持续 

从 一 个 初始 基本 块 开始 一 个 超 块 之 后 ， 接 下 来 需要 考虑 的 是 : 随 着 超 块 的 不 断 增 大 ， 应 该 收 
集 并 添加 哪些 后 续 的 基本 块 。 这 可 以 使 用 结 点 或 者 边 的 剖析 信息 来 完成 。 存 在 有 两 种 使 用 这 些 
信息 的 启发 式 方法 : 一 种 是 最 常 使 用 ， 另 一 种 是 最 近 使 用 。 
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以 最 常 使 用 的 方法 (Cifuentes 和 Emmerik 2000) 为 例 ， 结 点 剖析 信息 被 用 于 识别 最 可 能 的 
后 续 基 本 块 。 为 此 ,设置 第 二 个 门限 ， 即 持续 门限 ， 来 决定 可 能 的 候选 者 。 这 个 持续 门限 通常 比 
启动 门限 小 ; 例如 ， 一 个 典型 的 持续 门限 可 能 是 启动 门限 的 一 半 。 由 于 除 起 始点 以 外 的 块 都 必须 
被 剖析， 因此 必须 为 所 有 的 基本 块 收集 一 个 相对 完整 的 剖析 数据 集合 。 

当 达 到 启动 门限 并 且 将 要 开始 构造 超 块 时 ， 收 集 所 有 达到 持续 门限 的 基本 块 集合 ， 这 就 是 
持续 集合 。 然 后 超 块 形成 算法 从 最 热 的 基本 块 开始 ， 沿 着 控制 流 边 并 且 只 包含 持续 集合 中 的 块 ， 
来 构造 一 个 超 块 。 当 一 个 超 块 构造 完成 时 〈 稍 后 讨论 终止 点 ) ， 仿 真 过 程 可 能 重新 开始 剖析 直到 
另 一 个 基本 块 达到 启动 门限 。 不 过 ， 还 有 一 种 选择 是 继续 用 持续 集合 中 的 剩余 成 员 来 构造 其 他 
的 超 块 。 亦 即 ， 从 持续 集合 中 的 剩余 块 中 ， 取 最 热 的 作为 新 的 起 始点 来 构造 第 二 个 超 块 ， 当 这 些 
块 被 使 用 时 ， 就 从 持续 集合 中 删除 它们 。 这 个 过 程 一 直 持 续 到 用 光 持 续集 合 中 的 所 有 块 。 这 种 一 
次 形成 多 个 超 块 的 方法 具有 在 多 个 超 块 之 间 分 挫 超 块 形成 的 开销 的 好 处 。 

一 种 采用 最 近 使 用 的 方法 (Duesterwald 和 Bala 2000) 依赖 于 边 剖 析 信 息 。 超 块 构造 算法 只 
是 沿 着 实际 的 动态 控制 流 路 径 ， 从 起 始点 开始 ， 每 次 一 条 边 地 构造 超 块 。 亦 即 ， 假 设 跟 在 起 始点 
后 的 下 一 个 块 序列 可 能 是 一 个 经 常 执行 的 路 径 一 一 这 是 一 个 合理 的 好 假设 ， 它 是 根据 对 4. 1 节 中 
程序 行为 的 观察 得 到 的 。 对 于 这 种 方式 ， 只 需 对 候选 起 始点 进行 剖析 ， 而 没有 必要 对 持续 块 使 用 
剖析 。 因 此 ， 这 种 方法 的 一 个 好 处 是 : 与 最 常 使 用 算法 相 比 ， 可 以 充分 地 降低 剖析 开销 。 类 似 的 
方法 常用 于 对 过 程 的 布局 中 (Chen 和 Leupen 1997) 。 

最 后 ,一 种 可 供 选 择 的 、 更 复杂 的 方法 是 将 边 剖 析 和 最 常 使 用 的 启发 式 方法 相 结 合 (Bemdl 
和 Hendren 2003 ) 。 这 种 方法 依赖 相互 关联 的 条 件 分 支 序列 〈 在 边 剂 析 中 的 边 ) 去 发 现 那 些 将 基 
本 块 联结 成 超 块 的 最 可 能 的 路 径 。 

终止 点 

超 块 构 造 过 程 必须 在 某 些 点 终止 。 这 里 再 次 典型 地 使 用 启发 式 方法 ， 下 面 是 可 能 的 启发 式 
选择 。 任 何 给 定 系 统 都 可 以 使 用 这 些 启发 式 探 测 法 〈 或 者 可 能 是 其 他 的 ) 中 的 一 些 或 者 全 部 。 

1. 到 达 同 一 个 超 块 的 起 始点 。 这 预示 着 从 这 个 超 块 开始 的 循环 的 结束 。 在 一 些 系 统 中 ， 超 
块 的 构造 甚至 可 以 在 一 个 循环 结束 之 后 继续 进行 ， 这 实际 上 导致 动态 循环 展开 。 

2. 到 达 其 他 超 块 的 起 始点 。 当 出 现 这 种 情况 时 ， 超 块 构造 终止 并 且 这 两 个 超 块 可 以 被 链接 
在 一 起 ( 见 2.7 节 )。 

3. 超 块 达到 某 个 最 大 长 度 。 这 个 最 大 长 度 可 以 从 几 十 变化 到 几 百 条 指令 。 设 置 最 大 长 度 的 
理由 是 它 能 使 代码 膨胀 保持 在 控制 中 。 由 于 一 个 基本 块 可 以 被 用 在 多 个 块 中 ， 因 此 一 个 给 定 的 
基本 块 可 能 有 多 个 副本 。 超 块 变 得 越 长 ， 就 会 有 越 多 的 基本 块 复制 。 

4. 当 使 用 最 常 使 用 启发 式 探测 时 ， 不 再 有 达到 候选 门限 的 候选 基本 块 。 

5. 到达 一 个 间接 跳 转 ， 或 者 有 一 个 过 程 调用 。 这 种 终止 探测 的 使 用 依赖 于 是 否 能 进行 部 分 
过 程 内 联 ， 并 且 在 可 以 的 情况 下 ， 过 程 是 否 满足 内 联 的 标准 。 有 关内 联 的 权衡 将 在 高 级 语言 虚拟 
机 中 进一步 讨论 ( 见 6.6.2 节 )。 

例子 

作为 一 个 例子 ,我们 首先 使 用 最 常 执行 的 方式 来 构造 超 块 (Cifuentes 和 Emmerik 2000) 。 考 
虑 图 4-17 中 给 出 的 控制 流 图 。 比 方 说 起 始点 门限 设 为 100 而 持续 门限 设 为 50。 那 么 ， 如 图 所 示 ， 
基本 块 A 恰好 达到 起 始点 门限 。 块 D、E 和 G 达到 持续 门限 。 因 为 A 已 经 达到 启动 门限 ， 则 超 
块 构造 从 A 开始 ， 并 最 终 形成 超 块 ADEG。 在 这 个 例子 里 ， 构 造 是 因为 来 自 于 G 的 分 支 跳 回 到 
A 而 终止 。 这 时 ， 通 过 在 出 口 点 增加 任意 需要 的 补偿 代码 ， 可 以 将 超 块 作为 一 个 单元 来 优化 。 然 
后 ， 随 着 执行 的 继续 进行 ， 接 着 块 B 可 能 会 达到 启动 门限 ， 并 且 可 能 形成 超 块 BCG。 超 块 构造 
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再 一 次 被 终止 ， 这 是 因为 G 通 向 了 现 有 超 块 ADEG 的 起 始点 。 最 后 , RF 可 能 最 终 达 到 启动 门 
限 ， 从 而 形成 超 块 FG。 图 4-23 展示 了 这 个 超 块 示例 的 最 终 代码 布局 。 每 个 超 块 是 一 个 连续 的 代 
码 区 域 ， 并 且 基 本 块 G 被 复制 了 三 次 。 


如 果 使 用 最 近 执 行 的 方式 (Duesterwald 和 Bala 2000), ， 那 — 
么 就 只 有 块 A 被 剖析 ， 因 为 在 这 个 例子 里 ， 它 是 逆向 分 支 的 唯 Br cond] az false 
一 目标 。 当 对 块 A 的 剖析 计数 达到 某 一 门限 值 时 ， 比 方 说 100, 一 
会 立即 开始 构造 超 块 ， 并 且 沿 着 执行 流 进行 。 这 最 可 能 产生 超 Br cond} ac true 
SR ADEG (如 果 分 支 被 确定 为 它们 最 可 能 的 方向 ) 。 然 后 ， 对 块 — E 
B 进行 剖析 初始 化 ， 因 为 它 现在 是 一 个 超 块 出 口 的 目标 。 在 B OO 
的 剖析 计数 达到 100 之 后 ， 将 构造 男 一 个 超 块 ， 它 再 一 次 沿 着 Br cond4 == true 
“自然 ” 流 进行 构造 。 在 这 种 情况 下 ， 将 最 可 能 形成 超 块 BCG, Br uncond 
综 上 可 知 ， 最 常 执行 和 最 近 执 行 方 法 似乎 都 有 相同 的 结果 。 然 一 一 -一 
而 ， 我 们 注意 到 在 A 达到 门限 时 ， 离 开 A 的 分 支 有 大 约 30% 的 Br cond2 == false 
机 会 会 转 到 B 而 不 是 D， 这 时 将 形成 超 块 ABCG 而 不 是 ADEG。 一 一 -一 
那么 接着 形成 的 超 块 将 是 DEG。 这 说 明 在 有 些 情 况 下 ， 最 近 执 一 一 -一 
行 方式 没有 最 常 执行 方式 所 选择 的 超 块 好 。 在 下 一 小 节 中 描述 Br cond4 == true 
的 树 簇 正 是 针对 于 那些 情况 。 
4.3.5 HE F 
6G 
尽管 踪迹 和 超 块 (还 有 动态 基本 块 ) 是 翻译 和 优化 中 最 常 Br condé a= true 
使 用 的 单位 ， 但 是 也 存在 有 其 他 可 能 的 单位 。 踪 迹 和 超 块 是 基 Br uncond 


于 条 件 分 支 总 是 判定 为 一 个 方向 的 原则 (图 4-7)。 然 而 ， 也 有 
一 些 分 支 不 是 这 样 的 情况 。 例 如 ， 在 图 4-7 中 ， 几 乎 20% 的 分 图 4-23 例子 超 块 CFG 带 超 块 
支 ， 其 条 件 满 足 对 不 满足 的 情况 是 30 对 70 或 70 3} 30, JLE 格式 的 代码 布局 
10% 的 分 支 ， 其 条 件 满足 对 不 满足 的 情况 大 约 是 50 对 50。 对 于 那些 条 件 满 足 对 不 满足 趋 于 持平 
的 分 支 ， 经 常会 引出 一 个 超 块 或 者 踪迹 的 边 出 口 。 当 发 生 这 种 情况 时 ， 在 补偿 代码 (图 4-2) 中 
常会 涉及 开销 。 进 一 步 地 ， 优 化 通常 不 会 沿 着 边 出 口 路 径 进 行 ， 从 而 失去 了 性 能 提高 的 机 会 。 

对 于 那些 条 件 分 支 结果 经 常 是 均衡 的 情况 ， 使 用 树 区 域 或 者 树 绪 而 不 是 超 块 可 能 会 更 好 
(Banerjia, Havanki 和 Conte 1997 ) 。 树 簇 实质 上 是 超 块 的 泛 化 ， 它 们 提供 了 更 多 的 优化 机 会 。 它 
们 有 一 个 在 顶部 的 人 口 ， 并 且 可 能 有 多 个 出 口 ， 但 是 它们 能 够 合并 多 个 控制 流 而 不 是 像 超 块 那 
样 每 次 处 理 一 个 单独 的 控制 流 。 亦 即 ， 就 像 名 字 上 暗示 的 那样 ， 它 们 形成 了 具有 连结 在 一 起 的 基本 
块 的 树 。 图 4-24 给 出 了 图 4-17 中 代码 的 一 个 树 钞 。 和 超 块 所 做 的 一 样 ， 树 簇 是 通过 使 用 尾部 复 
制 而 形成 的 。 在 图 4-17 的 块 A 末端 的 分 支 是 一 个 30 对 70 的 分 支 ， 因 此 我 们 在 树 簇 中 包含 两 个 
出 口 路 径 。 另 一 方面 ， 由 于 很 少 走 从 F 到 G 的 边 ， 因 此 这 条 边 没 有 被 包括 在 主要 的 树 区 域 中 。 
不 过 ， 它 稍 后 可 能 会 作为 一 个 较 小 的 树 区 域 的 一 部 分 ， 如 图 所 示 。 

就 像 踪 迹 和 超 块 一 样 ， 树 艇 可 以 使 用 已 收集 的 剖析 信息 来 构造 。 例 如 ， 最 常 执行 的 启发 式 探 
测 法 的 一 个 变 体 可 以 设置 一 个 初始 门限 100 和 一 个 持续 门限 25 (持续 门限 比 超 块 中 的 要 低 ， 以 
“鼓励 ”形成 更 大 的 树 ) 。 然 后 考察 我 们 的 示例 代码 ， 一 个 初始 的 树 艇 将 由 块 ADEGBCG 构成 ， 
如 图 4-24 所 示 ; 之 后 可 能 形成 一 个 较 小 的 树 区 域 FG。 树 簇 也 可 以 渐 增 的 来 构造 。 例 如 ， 在 图 
4-24 中 ， 可 以 首先 形成 树 徐 ADEG (实际 上 是 一 个 超 块 )。 然 后 在 额外 的 程序 仿真 和 剖析 以 后 ， 
可 以 添加 路 径 BCG WU RRA MR. Ri, Bebe MRNA: 每 次 加 入 一 个 新 
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的 路 径 到 树 簇 中 时 ， 可 能 都 需要 重新 优化 。 





图 4-24 树 簇 。 树 篮 包 含 多 个 常 经 过 的 控制 流 路 径 


4.4 优化 框架 


在 下 面 几 节 中 ， 我 们 从 踪迹 和 超 块 开始 ， 考 虑 在 这 些 大 翻译 块 内 部 优化 代码 的 方法 。 在 这 一 
节 里 ， 我 们 首先 讨论 所 有 优化 方法 都 要 面 对 的 一 些 问 题 。 

正如 本 章 所 讨论 的 通常， 动态 优化 与 基于 编译 器 的 静态 优化 的 区 别 在 于 优化 器 只 操作 
在 描述 良好 的 “直线 ”代码 区 域 上 ， 如 ， 踪 迹 或 者 超 块 。 另 一 个 不 同 是 来 自 于 初始 程序 的 高 
级 语义 信息 是 不 可 用 的 ， 信 息 必 须 从 可 执行 的 二 进 制 代码 中 提取 。 人 例如， 数据 结构 声明 是 难 
以 获得 的 。 总 的 原则 是 应 该 使 用 快速 、 低 开销 的 优化 来 收集 那些 “可 轻松 实现 的 目标 ”。 相 比 
而 言 ， 用 于 高 级 语言 虚拟 机 (第 6 章 ) 的 动态 优化 所 受到 的 限制 就 要 少 得 多 。 在 高 级 语言 
拟 机 中 ， 有 更 多 的 语义 信息 可 以 供 优化 器 利用 ， 并 且 优 化 的 范围 可 能 比 本 章 中 所 讨论 的 优化 
范围 要 大 得 多 。 

除了 初始 的 编译 器 可 能 执行 的 任何 优化 之 外 ， 还 要 执行 动态 优化 。 由 于 动态 优化 是 在 运行 
时 进行 ， 因此 能 获得 静态 编译 器 所 不 能 得 到 的 新 的 优化 机 会 。 通 常 ， 这 些 新 的 机 会 包括 对 那些 经 
常 跨越 基本 块 边界 的 路 径 的 优化 。 例 如 ， 当 考虑 连续 块 时 ， 可 以 发 现 并 移 除 元 余 指 令 ， 或 者 可 以 
跨越 基本 块 边界 来 对 指令 重 排序 。 
方法 

图 4-25 举例 说 明了 优化 的 总 体 方 法 。 基 于 剖析 信息 ， 首 先 收集 基本 块 以 产生 一 个 构成 踪迹 
或 者 超 块 的 直线 代码 序列 。 这 些 指 令 被 翻译 软件 转化 成 中 间 形 式 ， 并 放 和 人 调度 /优化 缓冲 区 中 。 
这 个 中 间 形 式 包 含 了 基本 的 依赖 信息 ,但 是 通常 使 用 单 指派 格式 (Cytron 等 1991) 以 便于 不 出 
现 不 必要 的 依赖 。 为 了 简化 最 终 目 标 代码 的 生成 ， 这 种 中 间 形 式 与 编译 器 可 能 用 于 目标 指令 集 
的 中 间 形 式 相 类 似 。 然 后 ， 执 行 代码 调度 和 优化 ， 随 后 是 寄存 器 分 配 。 在 优化 代码 的 同时 ， 也 会 
产生 索引 表 信息 。 例 如 ， 索 引 表 可 以 用 来 追踪 源 寄存 器 值 和 目标 寄存 器 值 之 间 的 关系 ， 以 使 在 发 
生 陷 阱 或 者 中 断 事件 时 能 实现 精确 的 状态 恢复 ， 这 将 在 稍 后 解释 。 在 某 些 情况 下 ， 会 在 被 调度 和 
优化 的 踪迹 的 中 间 入 口 和 出 口 点 添加 补偿 代码 (图 4-26)。 实 际 上 ， 这 些 人 口 和 出 口 很 少 被 使 
用 ; BÆ, 我 们 将 会 看 到 ， 当 使 用 这 些 和 人 口 和 出 口 事 件 时 , 为 了 确保 正确 性 ,仍然 需要 补偿 
代码 。 


4.4.1 


动态 二 进 币 优化 709 








最 初 的 源 代码 优化 的 目标 代码 
| 一 一 >| £ 





使 用 剖析 转化 成 中 间 调度 并 优化 ” 生成 目标 代码 ”添加 补偿 代码 ; 
信息 收集 ”形式 ; 放 在 放 在 代码 cache 里 
基本 块 缓冲 区 里 


图 4-25 ”调度 /优化 过 程 的 主要 步骤 
基本 块 间 优 化 的 一 个 实例 是 使 用 在 本 章 开始 时 给 出 的 动态 信息 (图 4-2) ， 如 果 知道 最 常 执 
行 的 控制 路 径 是 从 块 A 到 块 C 的 ， 就 允许 构造 包含 基本 块 A 和 C 的 超 块 。 然 后 ， 作 为 一 个 优化 ， 
EI A 中 移 除 对 RI 的 赋值 。 这 导致 了 在 块 B 的 出 口 处 需要 添加 补偿 代码 。 





补偿 代码 





图 4-26 踪迹 和 超 块 的 优化 。 一 个 踪迹 (左边 ) 和 一 个 超 块 (右边 ) 是 利用 经 常 执行 的 程序 路 径 
来 组 合 基本 块 〈 用 虚线 表示 ) 所 形成 的 基本 块 集合 。 优 化 可 以 贯穿 整个 踪迹 或 者 超 块 来 
进行 ， 对 于 不 常用 的 中 间 入 口 和 出 口 要 添加 补偿 代码 


4.4.2 优化 和 兼容 性 


在 优化 过 程 中 ， 需 要 重点 考虑 的 一 个 问题 是 维护 兼容 性 。 在 3. 2 节 中 ， 我 们 大 体 讨论 了 兼容 
性 问题 。 要 重申 的 是 ， 对 于 实际 的 进程 虚拟 机 ， 我 们 维护 了 一 个 客户 虚拟 机 和 本 地 平台 之 间 的 同 
构 关系 (图 3-4)。 作 为 这 种 关系 的 一 部 分 ， 我 们 首先 假设 客户 进程 和 本 地 平台 上 的 操作 系统 之 
间 的 所 有 控制 转移 点 ( 系统 调用 、 返 回 、 陷 阱 或 者 中 断 ) 会 映射 到 相应 的 客户 进程 和 虚拟 机 运 
行 时 软件 之 间 的 控制 转移 。 此 外 ， 当 其 中 一 个 控制 转移 到 运行 时 软件 时 ， 应 该 可 以 重 构 完 整 的 客 
户 进 程 的 状态 ， 包 括 寄 存 器 和 内 存 。 针 对 优化 ， 我 们 最 关心 的 是 陷阱 ， 不 管 是 控制 转移 方面 还 是 
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状态 重 构 方面 ， 也 就 是 说 形成 精确 的 状态 。 我 们 在 下 面 的 段落 中 陈述 这 些 问 题 。 
我 们 定义 一 个 进程 虚拟 机 实现 是 陷阱 兼容 的 ， 如 果 任 何在 源 指令 的 本 地 执行 过 程 中 会 发 生 
的 陷阱 (除了 页 失效 ) 也 会 在 相应 的 翻译 后 的 目标 指令 仿真 过 程 中 被 观察 到 。 并 且 反 之 也 是 正 
181] FAM: 任何 在 目标 指令 的 执行 过 程 中 被 观察 到 的 陷阱 也 应 该 发 生 在 相应 的 源 指令 中 。 我 们 将 页 
182| 失效 排除 在 外 ， 这 是 因为 它们 不 是 由 运行 进程 的 行为 所 产生 的 结果 ， 而 是 由 主机 操作 系统 分 配 
资源 所 产生 的 。 在 第 7 章 中 ,在 属于 系统 虚拟 机 的 协同 设计 虚拟 机 中 将 处 理 页 失效 兼容 性 。 
考虑 图 4-27 左边 的 例子 。 在 这 个 例子 里 ， 源 代码 (左边) 的 第 一 条 2 指令 计算 已， 而 它 是 一 个 
“无 用 ”的 赋值 ， 因 为 下 一 条 指令 没有 读 rl 而 是 对 它 进 行 重 写 。 这 个 明显 的 元 余 可 能 作为 构造 动态 
翻译 块 的 一 个 副产品 而 出 现 。 一 个 显而易见 的 优化 是 移 除 这 条 制造 元 余 赋 值 (r12 +3) 的 指令 。 
然而 ， 这 可 能 违反 我 们 定义 过 的 陷阱 兼容 性 ， 因 为 被 移 除 的 指令 可 能 由 于 溢出 而 发 生 陷阱 。 亦 即 ， 
如 果 指 令 被 移 除 ， 则 会 跳 过 在 最 初 源 代码 中 发 生 溢出 的 指令 ,优化 前 后 的 程序 执行 并 不 完全 相同 。 


源 目标 
r4€r6+1 
riler2+r3 —> 陷阱 ? 


R4 & R6 + 1 移 除 
Rl & R4 + R5 无 用 
R6 e R*+ R7 分 配 


rler4+r5 
r6 © rl * r7 





图 4-27 ”一 个 移 除 明 显 元 余 的 指令 的 代码 优化 。 然 而 ， 如 果 被 移 除 的 指令 会 
因 洲 出 而 发 生 陷阱 ， 则 在 优化 后 的 版 本 中 将 不 会 发 生 陷阱 


针对 先前 给 出 的 陷阱 兼容 性 的 逆 条 件 ， 有 时 一 个 陷阱 可 能 会 因 目 标 指令 的 执行 而 发 生 ， 但 
却 不 会 在 源 指令 执行 过 程 中 发 生 。 然 而 ， 如 果 运 行 时 系统 能 觉察 到 这 些 陷阱 并 且 使 它们 对 客户 
程序 不 可 见 ， 那么 首 条 件 仍然 满足 。 即 陷阱 没有 被 客户 程序 “观察 到 ”， 因 为 运行 时 系统 过 滤 了 
任何 伪 陷 阱 。 

在 发 生 陷阱 时 ， 与 客户 程序 执行 中 的 一 个 特殊 点 对 应 的 内 存 和 寄存 器 的 状态 (由 陷阱 /中 断 
PC 确定 ) 将 变 得 可 见 了 。 如 果 运 行 时 系统 可 以 将 它们 重建 到 它们 在 本 地 平台 上 所 具有 的 相同 的 
值 ， 则 保持 了 内 存 和 寄存 器 的 状态 兼容 性 。 对 状态 兼容 性 的 支持 能 极 大 地 影响 可 能 进行 的 优化 。 
例如 ， 在 图 4-28 (AW), 将 计算 6 的 指令 重 排 到 代码 序列 中 的 较 前 位 置 ， 这 有 利于 它 和 与 
它 无 关 的 指令 的 重 秋 执行 〈 因 为 乘法 通常 要 花费 几 个 周期 来 执行 ) 。 在 本 例 中 ,乘法 指令 可 以 与 
BAD 的 加 法 指令 相 重要 。 重 新 调度 的 代码 显示 在 图 的 中 间 。 不 过 ， 如 果 对 9 赋值 的 加 法 发 生 

溢出 并 产生 陷阱 ， 那 么 陷阱 处 理 器 所 看 见 的 16 中 的 值 ， 就 与 最 初代 码 序列 中 的 不 相同 。 


带 有 保存 寄存 
器 状态 的 目标 


R1  R2 + R3 
S1 e R6 * R7 


r2 + r3 


ri+rs5 、 
rl * r7 ? R9 — R1 + RS 


r6 + 工 R6 & S1 
R3 «+ S51 + 1 





图 4-28 重 排 代 码 使 乘法 与 一 条 无 关 的 指令 重要 执行 。 如 果 乘 法 
发 生 溢 出 ， 则 改变 了 陷阱 处 理 器 所 观察 到 的 状态 


寄存 器 兼容 性 比 内 存 状态 兼容 性 要 容易 维护 ， 因 为 寄存 器 值 能 更 容易 被 回 退 (或 者 被 检 
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A). E 4-28 最 右边 的 代码 序列 说 明了 这 一 点 。 这 里 ， 代 码 被 重 排 ， 但 是 乘法 的 结果 最 初 放 在 一 
个 暂 存 寄存 器 S1 中 。 然 后 ， 在 与 原始 代码 中 更 新 R6 的 位 置 相同 的 地 方 , 将 S1 里 的 值 复 制 到 寄 
存 器 R6 中 。 如 果 发 生 溢出 陷阱 ， 则 运行 时 系统 可 以 使 用 4 5 节 中 描述 的 技术 ， 从 S2° OK 
的 状态 。 

在 需要 内 在 兼容 性 ( 见 3.2.1 节 ) 的 情况 下 ， 优 化 应 该 被 限制 为 : 在 仿真 那些 任何 可 能 发 
生 陷 阱 的 指令 时 ， 要 能 够 使 所 有 的 寄存 器 和 内 存 状态 是 可 恢复 的 。 然 而 ， 如 果 虚 拟 机 软件 的 开发 
者 可 以 做 出 某 些 关于 二 进 制 代码 生产 者 的 假设 一 一 例如 ， 不 存在 某 些 类 型 的 错误 ， 一 个 特殊 的 
编译 器 将 被 用 于 源 二 进 制 代码 ， 只 使 用 某 些 陷 阱 处 理 器 ， 或 者 某 些 陷 阱 从 来 不 被 激活 一 那么 
当 在 这 些 给 定 的 假设 下 ， 仍 然 可 以 进行 额外 的 优化 来 提供 外 在 兼容 性 。 在 4.6.2 节 中 ， 在 描述 完 
特定 优化 之 后 ， 我 们 将 回 到 兼容 性 的 主题 上 来 。 


4.4.3 一 致 的 寄存 器 映射 


最 初 ， 我 们 总 是 假设 有 充足 的 目标 寄存 器 可 用 于 将 源 寄 存 器 值 映射 到 目标 寄存 器 ， 并 且 提 
供 任何 可 被 执行 的 优化 。 这 可 能 要 求 可 用 的 目标 寄存 器 要 比 最 初 的 源 寄存 器 多 。 不 过 ， 这 并 不 是 
一 个 不 合理 的 假设 ， 因 为 IA-32 是 一 个 被 普遍 使 用 的 源 ISA， 而 目标 ISA ABE RISC ISA， 它 比 
IA-32 具有 更 多 的 寄存 器 。 但 是 ， 源 寄存 器 和 目标 寄存 器 的 相对 数量 是 一 个 重要 的 考虑 因素 ， 这 
个 问题 在 3. 3. 1 节 中 讨论 过 。 

倘若 有 充足 的 目标 寄存 器 ， 我 们 假设 各 个 源 寄 存 器 可 以 永久 地 映射 到 目标 寄存 器 。 尽 管理 论 
上 ， 基 于 每 个 翻译 块 可 以 完成 一 个 不 太 持久 的 映射 ， 但 是 当 从 一 个 翻译 块 转移 到 另 一 个 翻译 块 或 者 
从 一 个 翻译 块 转移 到 解释 器 时 ， 这 种 灵活 的 映射 方式 会 导致 复杂 化 。 这 在 下 面 的 例子 中 说 明 。 

图 4-29 显示 了 两 个 不 同 的 超 块 (A 和 B) 超 块 A MRB 
分 支 到 同一 个 超 块 C 的 情况 。 如 果 超 块 A M B 
使 用 不 同 的 寄存 器 映射 (如 ， 一 个 为 源 寄存 器 
rl 使 用 Rl 而 另 一 个 则 使 用 R2)， 那 么 这 两 种 
映射 或 其 中 之 一 可 能 与 公共 的 日 标 超 块 C 中 的 
映射 不 一 致 。 因 此 ， 必 须 在 超 块 A 和 B 的 末 
端 插 入 额外 的 寄存 器 复制 指令 ， 以 使 它们 的 映 
射 与 目标 超 块 C 中 的 相 一 致 。 类 似 的 情况 发 生 
在 由 于 超 块 B 末尾 的 条 件 分 支 没有 满足 而 跳 转 
到 解释 器 的 时 候 。 当 进入 解释 器 时 ， 运 行 时 必 
须 将 目标 寄存 器 的 值 复制 到 解释 器 保存 在 内 存 
中 的 寄存 器 上 下 文 块 中 。 如 果 寄 存 器 映射 在 翻 








译 块 之 间 不 一 致 ， 那 么 必须 提供 一 个 索引 表 来 超 块 C 

帮助 运行 时 系统 进行 复制 。 这 个 表 将 指示 每 个 图 4-29 一 个 不 一 致 的 寄存 器 映射 。 当 一 个 超 块 分 

翻译 超 块 所 使 用 的 特定 映射 。 支 到 另 一 个 超 块 时 ， 必 须 正确 管理 源 到 目 
为 了 简化 这 个 过 程 ， 经 常 在 所 有 的 翻译 块 标的 寄存 器 映射 。 此 外 ， 当 跳 转 到 解释 器 

边界 上 维护 一 个 固定 的 源 到 目标 的 寄存 器 映 时 ,解释 器 必须 知道 正 被 使 用 的 特定 映射 ， 

射 ， 这 个 映射 在 超 块 边界 内 部 则 更 加 灵活 。 在 以 便于 它 能 够 正确 地 更 新 内 存 中 的 寄存 器 

某 些 情况 下 ， 在 离开 翻译 块 时 可 能 会 导致 额外 上 下 文 据 
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的 寄存 器 复制 指令 。 然 而 ， 必 须 注 意 的 是 ， 这 种 固定 的 映射 不 是 必要 的 ,通过 在 翻译 时 的 仔细 敌 
id, 翻译 器 (在 索引 表 的 帮助 下 ) 能 够 确保 当 发 生 转 移 时 源 和 目标 的 映射 总 是 匹配 的 ; 这 个 过 
程 将 在 4. 6. 3 节 中 被 探讨 。 


4.5 代码 重 排 


代码 重 排 是 许多 虚拟 机 应 用 都 执行 的 一 个 重要 优化 。 在 许多 微 体系 结构 中 ， 性 能 受 指 令 发 
射 和 执行 的 顺序 影响 。 最 显著 的 例子 是 严格 按 程 序 顺 序 执行 指令 的 简单 流水 线 微 体系 结构 。 这 
应 用 在 许多 早期 的 RISC 处 理 嚣 中， 并且 仍 然 应 用 在 许多 嵌入 式 处 理 器 中 。 另 一 个 例子 是 VLIW 
处 理 器 ， 它 希望 编译 咒 重 排 指 令 ， 以 便 可 以 把 几 条 独立 的 指令 封装 在 相同 长 度 的 指令 字 内 。Intel 
IPF (以 前 的 IA-64) 的 一 些 实现 〈 即 Itanium) 就 是 采用 这 种 方法 的 当代 高 性 能 处 理 器 。 最 后 ， 
在 许多 情况 下， 由 于 功能 单元 延迟 的 变化 ， 尤 其 是 cache 存储 延迟 ， 动 态 乱 序 超标 量 处 理 器 的 性 
能 可 以 从 代码 重 排 中 获 益 。 

由 于 其 重要 性 ， 在 了 解 其 他 优化 之 前 我 们 首先 考虑 代码 重 排 。 代 码 重 排 是 一 种 相对 容易 理 
解 的 优化 ， 我 们 首先 讨论 关于 重 排 的 许多 重要 问题 ， 之 后 再 扩展 到 其 他 类 型 的 优化 。 


4.5.1 基 元 指令 重 排 


如 果 我 们 首先 考虑 指令 对 的 重 排 ， 就 会 比较 容易 理解 与 代码 重 排 相关 的 一 些 关 键 问题 。 这 
将 使 我 们 能 够 明白 实现 精确 陷阱 所 需 的 步骤 ， 或 者 明白 为 确保 正确 性 而 在 边 入 口 和 出 口 点 添加 
补偿 代码 的 步骤 。 这 种 成 对 重 排 的 方法 可 能 有 些 乏 味 ， 但 是 它 对 于 从 概念 上 理解 这 些 重要 的 问 
题 是 有 用 的 。 通 过 以 这 种 方式 考虑 重 排 ， 我 们 将 问题 简化 到 “ 基 元 ”， 以 它们 为 基础 可 以 构建 更 
加 复杂 的 算法 。 

所 允许 的 重 排 类 型 以 及 任何 所 需 的 补偿 代码 称 为 重 排 的 规则 ， 它 们 依赖 于 所 涉及 的 指令 类 
型 。 我 们 因此 将 指令 划分 成 四 类 。 

寄存 器 更 新 指令 ， 记 为 “reg” 一 一 是 那些 产生 一 个 寄存 器 结果 的 指令 ， 即 改变 寄存 器 那 部 
分 的 结构 状态 。 这 类 指令 通常 包括 加 载 指 令 以 及 写 人 寄存 器 的 ALU/ 移 位 类 型 的 操作 。 这 些 指令 
具有 可 以 “撤销 ”其 状态 修改 的 性 质 。 例 如 ， 把 将 要 重 写 的 值 保 存 到 其 他 目标 寄存 器 或 者 内 存 
区 域 中 ， 当 被 重 排 的 指令 发 生 陷阱 并 且 运 行 时 系统 需要 恢复 精确 的 源 ISA 状态 时 ， 可 能 需要 这 
些 被 保存 的 状态 。 

内 存 更 新 指令 ， 记 为 “mem” 一 一 是 那些 将 一 个 值 放 入 内 存 中 的 指令 ; 即 改变 位 于 主 存 中 
的 那 部 分 的 结构 状态 。 在 大 多 数 指令 集中 ， 只 有 内 存 存储 指令 属于 这 一 类 。 一 个 关键 的 性 质 是 对 
内 存 状 态 的 更 新 很 难 被 撤销 。 通 常 ， 任 何 修改 进程 状态 而 不 能 被 撤销 的 指令 应 该 被 放 人 这 一 类 
中 。 这 包括 对 易 失 性 位 置 的 内 存 访问 (在 下 面 描述 )。 

分 支 指令 ， 记 为 “br” 一 一 分 支 指令 用 来 控制 控制 流 , 但 是 不 产生 任何 寄存 器 或 者 内 存 结 
果 。 分 支 指 令 不 会 产生 陷阱 。 

连接 点 ， 记 为 “join” 是 跳 转 或 分 支 目标 进入 代码 序列 的 点 〈 即 踪迹 ) 。 尽 管 严 格 地 说 ， 
这 些 连 接点 不 是 指令 ， 但 是 它们 在 指令 被 移动 到 连接 点 上 方 或 者 之 后 时 会 影响 调度 。 

作为 一 个 例子 ， 图 4-30 中 为 每 条 指令 标明 它 所 属 的 指令 类 别 。 在 这 个 例子 以 及 其 他 例子 中 ， 
我 们 采用 寄存 器 转移 符号 以 使 各 种 指令 的 依赖 比较 容易 看 到 。 

对 易 失 性 内 存 位 置 的 访问 一 一 一 个 易 失 性 内 存 位 置 是 可 以 被 除了 手头 上 的 进程 之 外 的 实体 
访问 的 位 置 ， 例 如 ， 被 多 处 理 系统 中 的 另 一 个 进程 或 线程 ， 或 者 被 使 用 内 存 映 射 VO 的 YOR 
统 。 当 涉及 易 失 性 内 存 位 置 时 ， 经 常会 对 优化 有 严格 的 限制 。 例 如 ， 对 于 访问 易 失 性 位 置 的 指 
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令 ， 不 能 移 除 它们 ， 并 且 在 许多 情况 下 也 不 可 以 重 排 它们 。 在 第 9 章 中 ,将 对 多 处 理 器 虚拟 机 中 
的 内 存 重 排 问 题 进 行 更 多 的 讨论 。 为 了 分 析 代 码 重 排 ， 最 好 将 易 失 性 位 置 的 访问 归 类 为 
“mem”， 即 使 它们 不 是 存储 。 例 如 ， 在 图 4-30 中 ， 如 果 前 两 条 加 载 指令 是 针对 易 失 性 内 存 位 置 

的 ， 那 么 它们 应 该 都 被 归 人 “mem”， 而 不 是 “reg”。 最 后 ， 在 某 些 虚拟 机 应 用 中 ， 仿 真 系统 事 

先 不 知道 内 存 位 置 是 否 是 易 失 的 ， 因 而 就 必须 对 涉及 任何 内 存 操作 的 优化 做 出 保守 的 假设 。 


我 们 现在 根据 前 述 的 指令 类 别 来 考虑 调度 情 OO 
况 。 共 有 16 种 不 同 的 情况 ， 即 指令 对 中 的 每 条 指令 R2 e mem(R6 +4) 
都 是 四 种 类 型 之 一 。 不 过 ， 这 16 种 情况 中 有 几 个 是 RM 人 RT, 
退化 的 ， 如 ， 重 排 两 个 连接 点 并 没有 实际 作用 。 讨 Br exit if R7 == 
论 的 焦点 将 是 维护 一 致 的 寄存 器 分 配 和 精确 陷阱 的 mem (r6) — R3 





es nok ae Rie, 我 们 首先 考虑 涉及 。 图 4.30 按 调度 类 别 标记 指令 的 代码 序列 
分 支 的 代码 移动 ， 然 后 考虑 连接 点 周围 的 代码 移动 ， 最 后 讨论 在 直线 代码 中 的 代码 移动 。 

我 们 考虑 的 前 两 种 情况 在 图 4.31a 中 说 明 。 这 些 包 括 把 指令 从 一 个 分 支出 口 点 上 方 移动 到 下 
方 。 对 于 改变 结构 状态 的 指令 ， 不 管 是 写 人 寄存 器 还 是 写 人 内 存 ， 都 可 以 被 移动 到 一 条 离开 踪迹 
或 者 超 块 的 条 件 分 支 的 下 方 。 当 这 么 做 时 ， 在 出 口 点 要 添加 补偿 代码 以 复制 由 被 移动 的 指令 所 
执行 的 更 新 操作 。 这 确保 了 当 出 现 提前 退出 时 ， 状 态 与 最 初代 码 序列 中 的 状态 是 相同 的 。 例 如 ， 
在 图 4.31b 中 ， 一 条 移 位 指令 被 移动 到 一 个 条 件 分 支 之 后 。 在 分 支 转移 满足 时 ， 被 重 排 指令 的 一 
个 副本 被 作为 补偿 代码 放 在 目标 路 径 上 。 





a) 显示 了 两 种 情况 : 将 一 个 寄存 器 更 新 指令 移动 到 一 个 分 支 的 下 方 ， 以 及 将 一 个 存储 
指令 移动 到 一 个 分 支 的 下 方 。 在 两 种 情况 下 ， 都 需要 补偿 代码 


R1 <— mem(R6) R1 <— memCR6) 

R2 <— mem(R6 +4) R2 e mem(R6 +4) 

R3 + R1 +1 R3 e RI + 1 

R4 < R1 << 2 Br exit if R7 == 0 一 、 


Br exit if R7 == R4 二 R1 << 2 
R7 — R7 + 1 R7 — R7 + 1 
mem (R6) + R3 mem (R6) <— R3 


R4 < RI << 2 





b) 寄存 器 更 新 指令 ( R4* 一 Ri<<2 ) 被 移动 到 一 个 条 件 分 支 下 方 ; 在 分 支 跳 转 的 路 径 上 
使 用 一 个 副本 作为 补偿 代码 


图 4-31 在 一 个 条 件 分 支 指令 周围 移动 指令 


指令 被 移动 到 一 个 条 件 分 支 上 方 的 情况 在 图 4-32a 中 说 明 。 如 图 所 示 ， 一 个 寄存 器 更 新 指令 
可 以 被 移动 到 一 个 条 件 分 支 前 面 ， 但 是 必需 为 支持 精确 陷阱 而 做 准备 。 如 果 在 最 初 的 序列 中 ,一 
个 寄存 器 指令 对 寄存 器 R 进行 写 操作 ， 则 必须 维护 R 中 的 旧 值 ， 至 少 到 执行 到 达 最 初 的 寄存 器 
更 新 指令 的 位 置 〈 即 在 分 支 之 后 ) 为 止 。 实 现 这 个 的 一 种 方法 是 将 新 值 放 人 一 个 临时 寄存 器 了 
中 (从 而 保存 了 R 的 旧 值 ) ， 然 后 稍 后 将 新 值 复 制 到 及 里 。 这 在 图 4-32b 的 前 两 行 代码 序列 中 说 
明 。 这 里 ， 一 条 乘法 指令 被 移动 到 分 支 的 上 方 。 乘 法 指令 的 结果 被 保存 在 寄存 器 TI 中 ， 然 后 稍 
后 〈 在 分 支 之 后 ) 它 被 复制 到 原始 的 目标 寄存 器 R6 中 。 在 许多 情况 下 ， 可 能 不 需要 这 种 显 式 的 
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复制 指令 。 例 如 ， 在 图 4-32b 最 右边 一 列 中 ， 显 式 的 复制 被 移 除 。 但 是 ， 仍 然 需要 临时 寄存 器 IT 
以 防止 在 分 支 转移 的 事件 中 重 写 R6 中 的 值 。 其 中 的 关键 是 对 于 序列 中 的 每 条 指令 (包括 在 分 支 
出 口 ) ， 不 论 是 在 R6 自身 还 是 在 其 他 寄存 器 中 ， 都 可 以 得 到 RO 的 正确 值 。 换 名 话说 ， 在 寄存 器 
R6 中 的 初始 值 的 活路 范围 至 少 被 扩展 到 它 在 原始 的 代码 序列 被 重 写 的 那 一 点 。 





a) 一 条 寄存 器 更 新 指令 可 以 被 移动 到 一 条 分 支 指令 的 上 方 ， 只 要 旧 值 一 直到 分 支 之 后 
仍然 可 以 利用 。 这 可 能 需要 将 更 新 的 值 放 人 一 个 临时 寄存 器 中 以 防止 分 支 退 出 跳 转 。 
一 条 内 存 更 新 (存储 ) 指令 不 能 被 移动 到 一 个 分 支 的 上 方 


R2 e RI << 2 
T1 e R7 * R2 
Br exit if R8 == 0 


R2 e RI << 2 

T1 e R7 * R2 

Br exit if R8 == 0 
mem (T1) — R3 

R6 — R2 + 2 

b) 一 条 乘法 指令 (RECR7*R2) 被 移动 到 一 个 条 件 分 支 上 方 的 例子 


图 4-32 将 指令 从 一 个 条 件 分 支 下 方 移动 到 上 方 


同样 ， 如 图 4-32a 最 右边 的 代码 序列 所 示 ， 一 条 mem 指令 不 能 被 移动 到 分 支 的 前 面 ， 因 为 
我 们 假设 一 条 mem 指令 写 入 内 存 时 ， 以 前 的 内 存 值 是 不 可 恢复 的 。 因 此 ， 它 不 可 能 像 寄 存 器 指 
令 那样 备份 旧 值 。 

现在 我 们 考虑 将 一 条 指令 向 上 移动 经 过 一 个 连接 点 〈 该 连接 点 出 现在 踪迹 中 而 不 是 在 超 块 
中 ; 在 超 块 中 除 顶 部 外 没有 其 他 入 口 点 ) 的 情况 。 当 一 条 指令 被 移动 经 过 一 个 分 支出 口 点 时 ， 
这 同时 也 属于 前 述 的 情况 。 

如 图 4-33a 所 未 ， 两 种 类 型 的 状态 更 新 指令 ，reg 和 mem 指令 ， 都 可 以 被 移动 到 连接 点 上 
方 。 补 偿 代 码 是 被 移动 指令 的 一 个 副本 ， 它 保证 状态 被 正确 地 更 新 ， 而 不 管 如 何 进入 块 。 同 样 ， 
注意 被 移动 的 指令 实际 上 是 连接 点 处 的 指令 ， 并 且 连 接点 实质 上 向 下 移动 了 一 条 指令 。 因 此 ， 没 
有 发 生 实际 的 代码 移动 ; 只 是 改变 了 连接 点 的 目标 。 这 种 调度 操作 只 有 在 可 以 做 出 额外 的 、 向 上 
的 代码 移动 时 才 是 有 用 的 。 图 4-33b 是 一 条 处 在 连接 点 的 加 载 指令 被 移动 到 连接 点 上 方 的 例子 ， 
这 种 将 一 条 mem (存储 ) 指令 移动 到 -一 个 连接 点 上 方 也 是 类 似 的 情况 。 


Teg 


(补偿 ) 


连接 点 ”一 > ERA eee o> ;连接 点 


R2 e R1 << 2 
Br exit if R8 == 0 


R6 e T1 
mem (T1) e R3 
R6 — R2 + 2 














t 
t 
“-- reg -- -- mem 


a) 一 条 寄存 器 更 新 或 者 内 存 和 更 新 〈 一 条 存储 ) 指令 可 以 被 移动 到 一 个 连接 点 的 上 方 ; 
如 果 这 样 的 话 ， 要 在 连接 路 径 上 添加 一 条 执行 指令 副本 的 补偿 代码 









NRL © R1 +1 R7 © mem (R6) Ri 4 RL+1 
R7 <— mem (R6) R7 — mem (R6) 


R7 <+ R7 +1 R7 — R7 + 1 


b) 一 条 加 载 指令 被 移动 到 一 个 连接 点 上 方 的 例子 
图 4-33 ”一 条 指令 被 移动 到 一 个 连接 点 上 方 
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将 状态 更 新 指令 〈 寄 存 器 更 新 或 者 存储 ) 移动 到 一 个 连接 点 下 方 会 造成 这 样 的 情况 : 无 论 
人 口 路 径 如 何 ， 状 态 都 会 被 更 新 。 除 了 几 个 非常 特殊 的 情况 以 外 ， 如 果 使 用 连接 路 径 ， 会 导致 一 
个 不 正确 的 状态 更 新 。 因 此 ， 我 们 不 考虑 包括 这 类 代码 移动 的 重 调度 。 

现在 我 们 考虑 在 直线 代码 区 域 上 的 代码 移动 。 首 先 考 虑 如 图 4-34a 所 示 的 更 新 寄存 器 的 指 
令 。 这 种 情况 与 将 一 条 寄存 器 指令 移动 到 一 个 分 支点 的 上 方 相 类 似 。 当 指令 被 移动 时 ， 它 最 初 更 
新 一 个 临时 寄存 器 T。 稍 后 在 原始 序列 中 更 新 该 寄存 器 的 那 一 点 ， 将 临时 寄存 器 复制 到 结构 寄存 
器 中 。 当 然 ， 和 先前 的 情况 一 样 ， 如 果 在 已 翻译 的 指令 块 结束 之 前 ， 这 个 值 被 重 写 ， 那 么 就 不 再 
需要 这 条 复制 指令 了 。 图 4-34b 给 出 了 一 个 例子 。 如 果 一 条 内 存 更 新 指令 会 产生 陷阱 ， 那 么 状态 
可 以 被 恢复 到 在 原始 序列 中 mem 指令 之 前 ， 然 后 可 以 用 解释 的 方式 来 仿真 原始 程序 的 顺序 执行 。 
在 这 种 情况 下 ， 会 再 次 出 现 陷阱 并 且 状 态 将 是 正确 的 。 

其 他 类 型 的 直线 代码 重 排 同样 会 带 来 问题 ， 尤 其 是 在 将 一 条 存储 指令 移动 到 任何 其 他 修改 
状态 的 指令 的 上 方 。 像 前 面 提 到 的 那样 ， 存 储 操作 不 能 被 “撤销 ” 。 因 此 ， 如 果 存 在 一 个 由 在 原 
始 的 调度 中 在 它 前 面 的 指令 所 产生 的 陷阱 (但 是 在 最 终 的 调度 中 跟 在 它 之 后 ) ， 那 么 就 不 能 恢复 
精确 的 状态 。 


L reg(R) 


R1 e R1 * 3 
T1 © R7 << 3 
mem(R6) + R1 
R7 e T1 

R9 e T1 + R2 


RL R1 * 3 
mem(R6) < RL 
R7 e R7 << 3 
R9 — R7 + R2 





b) 
图 4-34 在 直线 代码 序列 上 的 代码 移动 。 寄 存 器 更 新 指令 可 以 被 移动 到 潜在 陷阱 指令 的 上 方 ， 
但 是 计算 的 值 被 保存 在 一 个 临时 寄存 器 中 ， 以 防止 发 生 陷阱 


小 结 

表 4-1 给 出 了 各 种 不 同类 型 的 代码 重 排 。 表 中 的 列 是 将 被 重 排 的 一 对 指令 中 的 第 一 条 指令 的 
指令 类 型 ， 而 行 则 是 第 二 条 指令 的 类 型 。 这 个 表 的 表 项 指出 要 采取 的 动作 : 是 否 人 允许 重 排 ， 如 果 
允许 ， 当 进行 重 排 时 要 采取 的 动作 。 当 发 生 陷 阱 时 ， 这 些 动作 是 否 人 允许 精确 的 状态 恢复 。 我 们 观 



































表 4-1 根据 类 型 进行 指令 重 排 
第 一 
第 二 
reg mem br join 

扩展 Reg 指令 的 活动 扩展 Reg 指令 的 活动 扩展 Reg 指令 的 活动 
reg | 区 域 区 域 区 域 | 在 人 口 处 加 入 补偿 代码 
mem 不 允许 不 允许 不 允许 在 人 口 处 加 入 补偿 代码 

在 分 支出 口 处 加 入 补 在 分 支出 处 口 加 入 补 、 > 、 
br | 偿 代码 ERE 不 允许 (改变 控制 流 ) 不 允许 (改变 控制 流 ) 
，， 不 允许 〈 仅 仅 在 很 少 不 允许 (仅仅 在 很 少 ote 
join 的 情况 下 能 做 ) 的 情况 下 能 做 不 允许 (改变 控制 流 ) 没有 效果 
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察 到 ， 如 果 寄 存 器 指令 是 一 对 将 被 重 排 的 指令 中 的 第 二 条 ， 那 么 重 排 总 是 可 能 的 ; 即 一 条 寄存 器 
指令 在 一 个 调度 中 可 以 被 任意 地 “向 上 ”移动 (只 要 不 违反 数据 依赖 ) 。 其 他 被 允许 的 代码 移动 
包括 reg 或 存储 指令 从 分 支 上 方 移动 到 下 方 ， 以 及 存储 指令 从 一 个 连接 点 的 下 方 移动 到 上 方 O 
有 适当 的 补偿 ) o 


4.5.2 实现 一 个 调度 算法 


刚才 我 们 已 经 讨论 了 基 元 的 调度 ， 现 在 开始 考虑 一 个 完整 的 代码 调度 算法 。 这 个 算法 是 基 
于 Bich Le (1998) 给 出 的 并 且 是 调度 那些 被 组 织 成 超 块 的 代码 。 为 了 处 理 精 确 的 陷阱 ， 执 行 寄 
存 器 分 配 来 维持 扩展 的 活路 范围， 以 便于 如 果 发 生 一 个 陷阱 ， 寄 存 器 状态 总 是 能 够 被 备份 到 产 
生 陷 阱 的 指令 之 前 的 某 一 点 。 然 后 ， 对 最 初 的 源 代码 进行 解释 ， 可 以 确定 这 个 陷阱 实际 上 是 否 是 
真实 的 ， 如 果 是 真实 的 ， 则 会 提供 正确 的 状态 。 这 里 给 出 的 例子 是 将 一 段 IA-32 指令 序列 翻译 成 
一 段 PowerPC 序列 。 在 这 个 例子 里 ， 先 忽略 对 IA-32 条 件 码 的 维护 ; 在 这 一 节 的 结尾 将 对 条 件 码 
处 理 进行 讨论 。 

步骤 1: 翻译 到 单 指派 形式 

属于 超 块 的 指令 被 翻译 成 目标 ISA 并 且 放 署 在 重 调度 缓冲 区 里 。 它 们 以 单 指 派 形式 〔〈 一 个 
寄存 器 只 被 指派 一 个 新 值 一 次 ) 被 放 到 指令 缓冲 区 中 。 为 了 有 助 于 维护 一 致 的 寄存 器 映射 ， 进 
人 寄存 器 的 值 被 映射 到 它们 的 一 致 的 目标 寄存 器 中 。 为 了 维持 单 指派 规则 ， 任 何在 超 块 中 产生 

i 的 新 值 均 被 放 入 用 上 标志 的 临时 “寄存 器 ”中 。 
人 在 调度 缓冲 区 中 被 翻译 


Neax %ebx t5 ri + r2, set CRO 
b CRO, L1 

Kebx, 4(%eax) mem(t5 + 4) 

%ebx, 10 t6 * 10 


t7 + 工 
r3 + 1, set CRO 
RO, L2 





步骤 2: 形成 寄存 器 映射 
寄存 器 映射 (RMAP) 被 产生 以 跟踪 在 最 初 源 代码 中 被 分 配 的 值 。 对 于 每 个 IA-32 源 寄存 
器 ， 如 eax, ebx 等 ，RMAP 跟踪 那些 保存 在 代码 序列 中 任何 给 定点 的 相应 值 的 单 指派 寄存 器 。 
最 初 的 源 代码 单一 指派 形式 ax MAP) i 
%eax ,%ebx rl + r2, set CRO 
L1 CRO, L1 
%ebx, 4(%eax) mem(tS + 4) 
10 t6 * 10 
t7 + 1 
r3 + 1, set CRO 
0 L2 


L2 
%ebx,%eax 
L3 





步骤 3: 重 排 代码 

重 排 中 间 形 式 的 指令 。 当 代码 被 重 排 时 ，RMAP 的 行 与 相应 的 指令 一 起 被 重 排 。 这 里 ， 指 令 
用 标号 a: 、b; c: 等 表示 ， 以 使 在 重 调度 的 代码 中 更 容易 辩 认 它们 。 在 这 个 例子 里 ， 加 载 指令 
c 被 向 上 移动 到 分 支 b 的 上 方 以 给 加 载 一 个 更 长 的 时 间 ， 使 得 加 载 能 在 需要 它 的 输出 结果 之 前 完 
Mo FU, RIT RAS d 的 加 法 指令 e 被 向 下 移动 到 它 后 面 的 分 支 的 下 方 。 和 先前 解释 的 
一 样 ， 加 法 指令 移动 到 分 支 的 下 方 需要 在 标号 L2 的 出 口 处 添加 补偿 代码 。 
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rl + r2,set CRO 
mem(t5 + 4) 
CRO, Li 

t6 * 10 

r3 + 1,set CRO 
CRO, L2 


tO + t1,set CRO 
CRO, L1 

mem(t5 + 4) 

t6 * 10 

t7 + 1 

t3 + 1,set CRO 

CRO, L2 t7 +1 

t8 + t5 t8 + t5 
L3 i: L3 


roo Aan 


a: 
b: 
ci 
d: 
e: 
f: 
g: 
h: 
i: 


e- t7+1 





步骤 4: 确定 检查 点 

确定 指令 检查 点 。 这 些 检查 点 被 用 在 一 条 指令 产生 陷阱 或 者 是 有 一 个 提前 从 超 块 退出 的 分 
支 时 。 当 发 生 陷 阱 时 ， 必 须 能 回 退 到 一 个 可 以 恢复 到 精确 状态 的 早先 的 某 一 点 上 ， 这 样 可 以 继续 
解释 执行 。 这 些 检查 点 是 在 原始 序列 中 所 有 的 指令 到 那些 点 为 止 已 经 完成 的 地 方 。 为 了 找 出 这 
些 点 ， 我 们 认为 ， 如 果 在 原始 序列 中 一 条 指令 之 前 的 所 有 指令 都 已 经 完成 ， 那 么 这 条 指令 就 被 提 
交 。 在 下 面 列 出 了 指令 提交 点 。 然 后 ， 对 于 每 条 指令 ， 检 查 点 〈( 换 句 话说， 是 在 它 产 生 陷阱 时 
的 回 退 点 ) 就 是 最 近 被 提交 的 指令 。 在 下 面 的 例子 里 ， 这 些 被 显示 在 检查 点 列 中 。 当 进入 超 块 
时 ， 初 始 的 寄存 器 映射 是 检查 点 ， 用 @ 标 记 。 


调度 后 

© rl + r2,set CRO 
mem(t5 + 4) 
CRO, L1 
t6 * 10 
r3 + 1,set CRO 
CRO, L2 
t7 +1 
t8 + t5 
L3 


seaoaanns @ 


a: 
c: 
b: 
d: 
f: 
g: 
e: 
h: 
i: 





RS: 分 配 寄存 器 

寄存 器 或 多 或 少 以 传统 的 方式 来 分 配 ， 而 活跃 范围 的 确定 方式 则 除外 。 为 了 确定 活跃 范围 ， 
我 们 需要 考虑 在 重 调度 指令 序列 中 的 常规 活 唉 范围 ， 并且 如 果 存 在 有 陷阱 ， 就 要 扩展 恢复 精确 
状态 所 必要 的 活 牙 范围 。 扩 展 的 活跃 范围 是 以 检查 点 为 基础 的 。 对 于 每 条 检查 点 指令 ， 其 寄存 器 
映射 中 的 寄存 器 的 活 凤 范 围 必须 被 扩展 到 它 被 用 作 检 查 点 的 最 后 一 点 。 例 如 ,指令 d 用 作 一 个 检 
查 点 直到 指令 e 出 现在 重 排 的 序列 中 。 寄 存 器 全 、t7、r3 以 及 M 在 指令 d 的 寄存 器 映射 中 。 因 
此 ， 这 些 寄存 器 必须 保持 是 活 唉 的 ， 直 到 指令 。 出 现在 重 排序 列 中 。 这 意味 着 假使 指令 e 产生 陷 
阱 ， 比 方 说 ， 由 于 溢出 ， 则 指令 d 处 的 寄存 器 值 将 是 可 用 的 并 且 可 以 被 恢复 。 

实际 上 ， 可 以 略微 放宽 活跃 范围。 我 们 只 需要 为 那些 可 能 产生 陷阱 或 者 分 支 跳出 超 块 的 指 








令 维护 检查 点 ， 因 为 只 有 在 这 些 点 ， 才 有 必要 得 到 正确 的 源 状 态 。 在 我 们 的 例子 里 ， 已 被 扩展 活 
路 范围 的 地 方 用 “x” pric. 

在 确定 活路 范围 以 后 ， 可 以 按 下 图 所 示 分 配 寄存 器 。 因 为 PowerPC 比 IA-32 有 更 多 的 寄存 
器 ， 所 以 分 配 时 有 充足 的 寄存 器 可 以 利用 。 在 分 配 过 程 中 ， 当 离开 踪迹 或 超 块 时 ， 一 致 的 寄存 器 
映射 应 该 是 一 个 追求 的 目标 。 因 此 ， 最 后 一 条 指令 的 RMAP 应 该 尽 可 能 地 反映 一 致 的 寄存 器 映 
射 。 如 果 需 要 的 话 ， 接 着 添加 复制 指令 来 强制 保持 一 致 的 寄存 器 映射 。 类 似 地 ， 如 果 一 个 边 出 口 
被 满足 ， 则 为 了 恢复 RMAP， 可 能 有 必要 添加 补偿 代码 。 
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寄存 器 活动 范围 分 配 后 
rl r2 r3 r4 t5 t6 t7 t8 t9 t10 
| 1 tod 
x i | 
x 


© ritr2,set CRO 
© mem(r1 + 4) 


© r34+1,set CRO 
CRO, L2 

© r24+1 

& r24+ri 
L3 





-70A noon w 
ae ss as so ae pe sr su »o 


| 1 
1 |] 
上 | 
x | 
x | 

{ 

| 


步骤 6: 添加 补偿 代码 

添加 补偿 代码 。 在 这 个 例子 里 ， 需 要 补偿 代码 是 因为 指令 e 被 移动 到 分 支 g 的 下 方 。 因 此 ， 
必须 在 分 支 g 的 目标 处 添加 同样 的 操作 (1212 +1)。 另 外 ， 为 了 恢复 一 致 的 寄存 器 映射 ， 寄 存 
器 5 必须 被 复制 到 寄存 器 BG 中 。 最 终 翻 译 和 重 排 后 的 PowerPC 代码 显示 在 右边 。 


分 配 后 添加 补偿 代 袜 PowerPC 代码 
rl © ril+r2,set CRO ri © ri+r2,set CRO add. 
r5 © mem(r1 + 4) © mem(rl1 + 4) Jwz 
bz CRO, L1 CRO, L1 beq 
r2 e r5*10 e r5 * 10 muli 
© r3+1,set CRO addic. 

CRO, L2' beq 

r2 +1 addi 
r2 + ri add 
L3 b 
r5 mr 


r5 © r3+41,set CRO 
bz CRO, L2 

rz ¢ r2+i1 

r2 r2 + rl 


-~arewinagn a 
= Foo nawrna 
s. so us oa sr on ar so sa 
-FA HaT 


b L3 


c 
N 


r5 ':mr 
r2 +1 addi r2,r2,1 





精确 的 状态 恢复 

继续 我 们 的 例子 ， 当 发 生 陷 阱 时 ， 运 行 时 首先 找到 发 生 陷 阱 的 超 块 和 相应 的 源 基本 块 (可 
能 要 在 索引 表 的 帮助 下 ) 。 然 后 ， 它 在 陷阱 指令 的 检查 点 处 重建 RMAP。 它 是 通过 重 翻 译 最 初 的 
源 基本 块 ， 然 后 执行 重 调度 和 寄存 器 分 配 来 完成 的 。 在 那 一 点 ， 运 行 时 可 以 使 用 重建 的 RMAP 
来 重新 设置 与 陷阱 指令 的 检查 点 相关 的 寄存 器 值 。 检 查 点 算法 保证 可 以 实现 这 个 。 然 后 ， 运 行 时 
可 以 开始 解释 执行 检查 点 处 的 最 初 的 源 代码 。 

例如 ， 上 比方 说 指令 d 产生 陷阱 。 那 么 运行 时 需要 回 退 到 一 个 与 最 初 源 序列 有 关 的 精确 状态 。 
因此 ， 它 回 退 到 指令 d 的 检查 点 。 在 这 种 情况 下 ， 检 查 点 是 指令 co M c 对 应 的 RMAP RARE 
建 时 ， 寄 存 器 eax, ebx, ecx 以 及 edx 分 别 映射 到 rl1、 臣 、3、r4。 这 样 ， 运 行 时 把 这 些 值 恢复 到 
OR ay IA-32 寄存 器 中 ， 并 且 从 指令 c 开始 向 前 解释 执行 。 当 指令 d 被 解释 执行 时 ， 会 重 现 陷 
阱 ， 此 时 的 状态 将 是 正确 的 。 

作为 另外 一 个 例子 ， 假 设 指令 e 产生 陷阱 ， 但 是 b 处 的 分 支 将 被 满足 (并且 会 在 源 代码 中 在 
c 之 前 退出 超 块 ) 。 在 翻译 后 的 目标 代码 中 ， 执 行 指令 c 并 产生 陷阱 。c 的 检查 点 是 指令 a, FH 
器 口 、Z2、zo 以 及 保存 了 在 指令 a 处 的 寄存 器 状态 。 因 此 ， 如 果 利 用 这 些 值 从 指令 a 开始 解释 
执行 ， 则 分 支 将 被 满足 ， 并 且 不 会 出 现 陷阱 。 最 终 ， 随 着 解释 的 进行 ， 一 个 源 PC 会 映射 到 代码 
cache 中 的 一 个 翻译 后 的 超 块 中 ， 并 且 仿 真 会 向 后 跳 转 到 代码 cache 里 。 

作为 解释 执行 的 一 种 选择 ， 也 可 以 远离 这 一 端 而 维持 一 个 简单 的 《没有 被 重 排序 或 者 优化 ) 
二 进 制 翻译 。 那 么 在 状态 被 恢复 以 后 ， 运 行 时 软件 不 是 进行 解释 ， 而 是 可 以 分 支 到 简单 的 、 按 次 
序 的 翻译 中 。 这 种 更 快 的 处 理 陷 阱 方法 需要 更 多 的 内 存 ， 并 且 可 以 被 应 用 于 那些 一 条 给 定 指令 
反复 产生 陷阱 的 特定 情况 。 

最 后 ， 重 建 精确 状态 的 一 个 补充 方法 是 添加 修复 代码 (Gschwind 和 Altman 2000)， 这 由 运行 时 在 
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发 生 陷阱 后 执行 。 修 复 代 码 与 放置 在 超 块 的 边 出 口 的 补偿 代码 相 类 似 。 然 而 ， 在 实现 精确 陷阱 的 情况 

下 ,，“ 边 出 口 ”实际 上 是 一 个 陷阱 。 这 个 概念 在 图 4-35 中 说 明 ， 取 自 于 图 4-28 中 的 例子 。 这 里 ， 代 码 
序列 被 重 排 ,修复 代码 (在 这 个 例子 里 是 指令 RRI +R5) 被 记录 在 一 个 索引 表 中 。 接 着 ， 如 果 乘 
法 指令 产生 陷 奎 运行 时 的 陷阱 仿真 咒 会 执行 修复 代码 以 产生 寄存 器 RO 的 正确 的 精确 值 。 


源 
rie r2 + r3 RI e RI + 3 






r9 rl + r5 gages R6 <- R1 * R7 MKB 
r6 e rl * r7 CRo + R1 + R5 修补 代码 
r3 + r64+1 R3 — R6 + 1 R9 RL + R5 






图 4-35 在 发 生 陷阱 之 后 使 用 修复 代码 来 重建 精确 的 状态 。 指 令 序 列 被 重 排序 ， 在 一 个 潜在 的 陷阱 
CHO) 点 产生 修复 代码 。 如 果 屁 法 指令 恰好 产生 陷阱 ， 被 运行 时 的 陷阱 处 理 器 执行 的 修 
复 代 码 恢复 寄存 器 RO 的 精确 值 

条 件 码 的 处 理 

为 了 处 理 条 件 码 ， 一 个 有 效 的 方法 是 使 用 2.2.8 节 中 描述 的 惰性 计算 。 利 用 惰性 计算 ， 条 件 码 
只 有 在 需要 时 才 被 计算 。 为 了 计算 条 件 分 支 ， 可 以 在 一 个 翻译 快 的 内 部 进行 数据 流 分 析 ， 以 决定 哪 
些 条 件 码 实际 上 是 被 正在 执行 的 代码 所 需要 的 。 在 扩展 的 重 排序 例子 中 ， 只 有 两 条 指令 设置 在 翻译 
块 内 部 会 被 潜在 使 用 的 条 件 码 (指令 a 和 f)， 因此， 这 些 实际 上 是 仅 有 的 计算 条 件 码 的 指令 ;但 是 
注意 到 尽管 如 此 ， 生 成 的 是 条 件 码 的 目标 ISA (PowerPC) 版 本 ， 而 不 是 源 ISA (IA-32) 版 本 。 

一 个 更 难 的 问题 发 生 在 中 断 或 者 陷阱 被 触发 时 ， 这 时 必须 具体 化 条 件 码 ， 以 提供 精确 的 源 
ISA 状态 。 其 基本 方法 与 用 来 提供 精确 的 寄存 器 状态 的 方法 相 类 似 。 更 明确 地 ， 情 性 计算 可 以 通 
过 将 输入 操作 数 的 活路 范围 扩展 到 条 件 码 设置 指令 来 实现 。 如 果 需 要 ， 这 些 操作 数 被 运行 时 的 
陷阱 /中 断 例 程 用 来 具体 化 条 件 码 。 

在 前 述 的 代码 重 排 算法 中 ,“ 条 件 码 检查 点 ”与 正常 的 检查 点 类 似 而 被 维护 。 仅 有 的 差别 是 
这 些 检查 点 被 限制 在 被 提交 的 条 件 码 设置 指令 中 。 然 后 ， 条 件 码 检查 点 扩展 输入 到 条 件 码 设置 
指令 的 操作 数 的 活跃 范围 。 在 这 个 例子 里 ， 指 令 a、d、f、e 以 及 h 对 应 于 设置 条 件 码 的 IA-32 源 
代码 操作 。 除 了 指令 d 的 条 件 码 检查 点 是 a (不 是 c， 因 为 c 没有 改变 条 件 码 ) WS, HAWS 
件 码 检 查 点 与 正常 的 检查 点 类 似 。 因 此 ， 在 指令 a 处 被 映射 的 寄存 器 的 活路 范围 在 重 排序 的 代码 
中 必须 被 扩展 到 指令 4。 考 虑 到 这 一 点 ， 必 须 扩 展 ri 的 初始 值 的 活路 范围 (在 下 面 的 表 中 用 
“y” 表 示 )。 这 进一步 影响 了 寄存 器 分 配 ， 因 为 寄存 器 rl 中 最 初 的 值 必须 被 保留 在 指令 a 以 外 ， 
以 防 指令 4 产生 陷阱 而 必须 具体 化 条 件 码 (由 指令 a 产生 ) 。 在 这 个 例子 里 ， 条 件 码 的 PowerPC 
版 本 恰好 由 指令 a 产生 。 然 而 ， 这 些 对 生成 所 有 需要 的 IA-32 条 件 码 是 不 够 的 。 扩 展 寄存 器 zl 的 
活跃 范围 意味 着 寄存 器 6 必须 被 用 来 保存 指令 a 的 结果 。 这 最 终 会 导致 当 离开 翻译 块 时 ， 为 了 
维护 一 致 的 寄存 器 映射 ， 要 有 一 个 额外 的 寄存 器 复制 (lerb) 。 

步骤 5a: 带 条 件 码 的 寄存 器 分 配 

HaHa 分 配 后 

rl r2 r3 r4 t5 t6 t7 t8 t9 t10 

| 上 | © rl+r2,set CRO 

«= mem(r6 + 4 

CRO, L1 
rs * 10 
r3+1,set CRO 
CRO, 12 


a: 
c: 
b: 
d: 
f: 
g: 
e: 
h: 
i: 
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现在 ， 如 果 指 令 4 恰好 产生 陷阱 ， 寄 存 器 状态 可 以 〈 和 以 前 一 样 ) 被 回 退 到 指令 c， 并 且 产 
生 条 件 码 的 操作 数 (寄存 器 rl A 在 进入 翻译 块 时 ) 也 可 以 为 计算 条 件 码 而 被 焦 复 。 接 着 解释 
被 用 来 具体 化 在 指令 d 处 的 正确 的 寄存 器 状态 和 条 件 码 状态 。 


4.5.3 超 块 与 踪迹 


如 前 所 述 ， 大 多 数 动态 翻译 系统 使 用 超 块 而 不 使 用 更 普通 的 踪迹 。 为 了 理解 其 中 的 原因 ， 我 
们 需要 调查 许多 问题 。 首 先 ， 我 们 考虑 指令 cache 和 分 支 预测 的 性 能 ， 然 后 考虑 在 实现 动态 超 
块 /踪迹 的 构造 和 优化 时 开始 活动 的 问题 。 

关于 指令 缓存 的 一 个 显而易见 的 考虑 是 超 块 可 能 由 于 尾部 复制 要 添加 重复 的 代码 ， 这 会 增 
大 工作 集 的 大 小 并 且 降 低 指 令 cache 的 效率 。 要 减轻 这 个 效果 ， 就 只 有 把 频繁 使 用 的 代码 区 域 转 
化 成 超 块 。 同 样 ， 超 块 导致 了 更 多 的 直线 代码 读 取 ， 这 会 增强 cache 预 取 的 效率 。 如 果 由 于 尾部 
复制 使 代码 膨胀 得 过 量 (并且 当 它 形成 超 块 时 ， 运 行 时 可 以 追踪 这 个 )， 那 么 在 超 块 形成 时 可 以 
施加 额外 的 限制 ,例如 限制 它们 的 长 度 。 

关于 分 支 预 测 ， 和 指令 缓存 一 样 ， 也 有 工作 集 大 小 的 不 足 ; 如 ， 在 图 4-22b Hik G 被 复制 了 
三 次 ， 因 此 它 末 端的 分 支 指令 在 分 支 预测 表 中 会 有 三 个 不 同 的 条 目 。 另 一 方面 ， 超 块 也 是 有 益 
的 ， 因 为 它 实际 上 编码 了 一 些 全 局 分 支 的 历史 信息 。 例 如 ， 对 应 于 G 的 末端 的 三 个 分 支 属于 三 
条 不 同 的 路 径 。 因 此 ， 超 块 实质 上 和 嵌 人 了 与 路 径 相关 的 信息 ， 并 且 可 以 使 用 一 个 更 简单 的 分 支 预 
测 器 ， 或 者 在 一 个 给 定 的 分 支 预测 器 下 就 可 以 更 好 的 工作 。 

就 优化 而 言 ， 边 出 口 和 连接 点 都 可 能 禁止 包含 代码 移动 的 基本 块 间 的 优化 ， 因 为 它 不 可 能 
总 是 添加 补偿 代码 〈 见 表 4-1) 。 例 如 ， 代 码 经 常 不 能 被 移动 到 一 个 连接 点 的 下 方 。 因 此 ， 除 去 
了 连接 点 也 就 消除 了 一 些 代码 重 排 的 限制 。 

如 果 考 虑 踪迹 / 超 块 的 形成 和 优化 过 程 ， 则 移 除 连接 点 的 另 一 个 好 处 就 明显 了 。 记 住 在 踪迹 / 
超 块 的 形成 过 程 中 ,观察 到 的 基本 块 是 动态 基本 快 ， 而 不 是 静态 基本 块 。 因 此 ， 确 定 一 个 代码 区 
域 连接 点 是 否 已 经 是 一 个 现存 踪迹 的 一 部 分 ,增加 了 构造 算法 的 复杂 性 和 敌 记 。 特 别 地 ， 因 为 只 
有 动态 基本 块 被 观察 到 ， 故 不 能 事先 知道 在 块 中 间 的 一 点 可 能 稍 后 被 发 现 是 一 个 连接 点 。 因 此 ， 
在 代码 发 现 的 过 程 中 ， 检 查 一 个 分 支 目标 是 否 已 经 被 翻译 不 仅 需要 看 已 知 的 分 支 目标 ， 而 且 要 
追踪 和 搜索 在 已 翻译 的 基本 块 内 部 的 地 址 范围 。 

相关 的 问题 也 会 因为 一 个 现存 的 翻译 踪迹 可 能 已 被 优化 而 出 现 ， 这 种 优化 可 能 已 经 执行 而 
不 知道 一 个 连接 点 稍 后 会 被 发 现 并 被 添加 。 因 此 ， 在 发 现 和 添加 一 个 连接 点 以 后 ， 这 个 优化 不 再 
是 安全 的 ， 因 此 可 能 不 得 不 撤销 或 者 至 少 修正 这 个 优化 ， 从 而 进一步 增加 了 复杂 性 。 

也 许 值得 注意 的 是 ， 踪 迹 调 度 最 初 是 在 静态 编译 环境 中 实现 的 〈Fisher 1981 ) 。 在 静态 编译 
环境 下 ， 可 以 在 形成 踪迹 时 分 析 完 整 的 控制 流 图 ， 并 且 有 较 少 的 抑制 优化 兼容 性 的 限制 。 亦 即 ， 
必须 只 维护 高 级 语言 程序 的 兼容 性 ， 而 不 必 维 护 已 存在 的 二 进 制 代码 的 兼容 性 。 

一 个 不 同 的 观点 是 ， 简 化 超 块 的 原因 是 它们 只 在 出 口 点 需要 补偿 代码 ， 这 是 相对 直接 的 。 此 
外 ， 仅 有 的 入 日 点 是 在 顶部 ， 在 这 些 地 方 初始 条 件 ( 即 寄存 器 状态 ) 容易 被 维护 。 事 实 上 ， 超 
块 所 需要 的 尾部 复制 就 像 在 所 有 的 连接 点 添加 补偿 代码 的 超 集 并 跳 过 所 有 的 分 析 ; 即 “ 预 添加 ” 
补偿 代码 。 因 为 它 以 相同 的 顺序 精确 地 执行 相同 的 状态 更 新 ， 所 以 它 不 必 作 为 特殊 的 补偿 代码 
而 分 离 出 来 ， 而 是 保留 在 主线 代码 中 。 


4.6 代码 优化 
在 翻译 块 内 部 可 以 应 用 许多 优化 来 减少 执行 时 间 。 即 使 当 源 二 进 制 代码 在 产生 时 被 优化 过 ， 
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在 动态 环境 中 还 是 有 其 他 的 优化 机 会 。 例 如 ， 超 块 的 形成 移 除了 控制 流连 接点 ， 创 建 了 一 个 和 原 
始 代码 中 局 部 不 同 的 控制 流 。 部 分 的 过 程 内 联 将 原本 是 过 程 间 的 分 析 转 化 为 基本 块 间 的 分 析 。 

通常 ， 在 实际 中 已 经 提出 和 使 用 了 许多 代码 优化 (Aho, Sethi 和 Ullman 1986; Cooper 和 
Torczon 2003 ) ， 我 们 将 关注 那些 更 可 能 存在 于 动态 优化 中 的 代码 优化 。 我 们 首先 通过 一 些 例子 
来 描述 一 组 常见 的 优化 。 经 常 地 ， 在 执行 一 类 优化 时 会 激活 其 他 的 优化 ， 我 们 将 举例 说 明 这 
一 点 。 


4.6.1 基本 的 优化 


图 4-36 说 明了 常见 优化 的 组 合 。 第 一 个 是 常量 传播 。 这里， 常数 值 6 被 赋值 给 R1; 然后 RI 
在 下 一 条 指令 中 被 使 用 ， 因 此 常数 6 被 传播 到 下 一 条 指令 〈 它 将 有 效 地 变 成 R5*-6 +2)。 接 着 执 
行 一 个 称 为 常量 折 肥 的 优化 。 常 数 2 和 6 被 结合 成 常数 8， 并 且 原 来 的 加 法 指令 被 取代 为 将 常数 
8 赋值 给 寄存 器 R5。 在 常量 传播 和 折合 之 后 ， 第 三 条 指令 中 的 乘法 通过 强度 市 弱 被 转化 成 左 移 3 
位 的 操作 。 

你 可 能 会 觉得 上 述 的 例子 是 牵强 的 。 什 么 样 的 编译 器 会 首先 产生 这 种 非 优化 的 代码 呢 ? 实际 
上 ， 这 个 例子 说 明了 先前 提出 的 一 点 。 考 虑 图 4-37 中 所 示 的 最 初 的 源 代 码 ， 它 和 图 4-36a 中 的 相 
同 ， 唯 一 的 不 同 是 对 RS 的 赋值 位 于 源 代码 中 的 一 个 控制 流连 接点 。 因 此 ， 在 源 代码 序列 中 ， 编 译 
器 不 能 执行 常量 传播 。 这 只 是 因为 超 块 的 形成 移 除 了 被 常量 传播 (后 跟 其 他 优化 ) 激活 的 连接 点 。 





图 4-37 禁止 代码 优化 的 一 个 控制 流连 接点 


图 4-38 给 出 了 另 一 个 超 块 形成 将 导致 潜在 的 优化 的 例子 。 赋 值 常常 可 能 是 部 分 无 用 的 ， 亦 
即 ， 赋 值 在 一 条 控制 流 路 径 上 是 无 用 的 ,但 是 在 其 他 的 路 径 上 却 不 是 。 这 在 图 4-38a 中 说 明 。 这 
里 ， 如 果 分 支 条 件 不 满足 ， 则 在 BNE 上 方 对 R3 的 赋值 是 无 用 的 ， 但 是 如 果 分 支 转移 到 LI ， 则 
对 R3 的 赋值 是 有 用 的 。 这 使 我 们 想起 一 个 称 为 代码 下 沉 的 优化 。 如 果 第 一 条 对 R3 的 赋值 被 移 
动 到 分 支 的 下 面 ， 并 在 目标 Ll 处 放置 一 条 补偿 的 复制 指令 (图 4-38b) ， 那 么 在 不 满足 的 路 径 上 
部 分 无 用 赋值 转化 成 了 一 个 完全 无 用 赋值 。 因 此 ， 在 分 支 不 满足 的 路 径 上 ， 可 以 移 除 对 R3 的 赋 
值 (图 4-38c) 。 如 果 分 支 不 满足 的 情况 是 最 常见 的 ， 那 么 这 种 优化 是 最 有 益 的 。 在 超 块 优化 方 
面 ， 在 分 支 不 满足 路 径 上 的 指令 序列 可 能 是 超 块 的 一 部 分 。 那 么 代码 下 沉 就 只 是 一 个 重 排序 ， 并 
在 一 个 超 块 出 口 处 添加 上 补偿 代码 来 保持 重 排 后 代码 的 语义 不 变 。 

图 4-39 说 明了 另 一 对 常见 的 优化 。 在 最 初 的 代码 序列 中 ， 存 在 一 个 从 寄存 器 RI 到 R4 的 复制 
操作 。 复 写 传播 会 导致 乘法 指令 中 的 寄存 器 R 被 R4 所 替代 。 这 样 做 并 没有 减少 指令 的 数量 ,但 是 
在 超标 量 处 理 器 中 这 样 的 处 理会 增加 并 行 性 ， 因 为 经 过 复写 传播 后 复制 操作 和 乘法 操作 可 以 并 行 地 
执行 。 最后， 经 过 复写 传播 以 后 ,保存 在 寄存 器 R4 中 的 值 是 无 用 的 ;也 就 是 说 ，R4 在 被 重 写 之 前 
没有 被 任何 后 续 的 指令 读 。 因 此 ， 作 为 第 二 种 优化 ， 无 用 赋值 消除 移 除 了 对 R4 的 复制 。 


722 Bae 














RI e 1 RI e 1 

R3 — R3 + R2 Br L1 if R7!=0 

Br L1 if R7!=0 R3 <- R3 + R2 

R3 — R7 + 1 Li: R3 e R3 +1 R3 +- R7 +1 L1: R3 & R3 + R2 
R3 — R3 + 1 

a) 对 R3 的 赋值 是 部 分 无 用 的 b) 代码 下 沉 以 后 ， 在 不 转移 路 径 上 的 
分 配 是 完全 无 用 的 
RI & 1 


Br Li if R7!=0 
R3 e- R7 + 1 L1: R3 < R3 + R2 
R3 e R3 +1 
c) 对 R3 的 无 用 赋值 稍 后 可 以 被 移 除 
图 4-38 ”代码 下 沉 的 例子 


R1 — R2 + R3 Ri & R2 + R3 R1 © R2 + R3 
R4 e RL R4 & R1 
RS & R5 * R4 RS e R5 * R1 R5 e RS * R1 





R4 e R7 + RB R4 — R7 + RB R4 e R7 + R8 
a) b) c) 
K 4-39 由 a 到 b 的 复写 传播 后 跟 b 到 < 的 无 用 赋值 消除 


图 4-40 给 出 了 另 一 个 由 复写 传播 提供 优化 的 例子 。 这 里 ， 从 R2 到 RS 的 复制 被 传播 到 第 二 
个 加 法 运算 。 然 后，R2 + R3 成 为 公共 子 表达 式 ， 第 二 个 加 法 运算 可 以 被 消除 。 在 这 一 点 上 , 复 
制 到 RS 的 指令 会 成 为 一 个 无 用 赋值 并 且 可 以 被 消除 (图 中 没有 显示 )。 


R1 + R2 + R3 R1 e R2 + R3 R1 4+- R2 + R3 
R5 — R2 RS 全 R2 RS — R2 
R6 e R5 + R3 R6 < R2 + R3 R6 + RL 

a) b) e) 


Æ 4-40 由 a 到 b 的 复写 传播 ， 后 跟着 b 到 c 的 公共 子 表达 式 消 除 


ia 最 后 一 个 优化 例子 是 循环 不 变 式 外 提 ， 如 图 4-41 所 示 。 这 里 ， 如 果 R2 和 R3 在 循环 中 都 没 
b 有 被 修改 ， 那 么 将 它们 的 值 相 加 并 赋 给 寄存 器 R1， 这 个 操作 产生 的 结果 在 整个 循环 执行 中 是 不 
变 的 。 因 此 ， 它 只 需要 在 进入 循环 之 前 执行 一 次 。 


L1: RI <— R2 + R3 RI e R2 + R3 
mem (R4) e R1 Li: mem (R4) e R1 
R4 — R4 + 4 R4 — R4 + 4 





Br L1 if R7!=0 Br L1 if R7!=0 
a) 在 循环 内 部 重复 执行 b) 将 对 R1 的 计算 移 到 循环 
对 R1 的 计算 外 面 并 且 只 做 一 次 


图 4-41 循环 不 变 式 外 提 


以 上 我 们 纵览 了 一 些 常见 的 优化 : 元 余 分 支 消除 、 常 量 传 播 、 复 写 传 播 、 常 量 折合 、 代 码 下 沉 、 
强度 前 弱 、 无 用 赋值 消除 以 及 循环 不 变 式 外 提 ， 尽 管 可 以 采用 这 些 优化 中 的 任何 一 个 以 及 其 他 的 优化 ， 
但 是 不 同 的 优化 对 兼容 性 有 着 不 同 的 影响 ， 同 时 这 也 是 决定 如 何 进行 优化 决策 的 一 个 关键 因素 。 


4.6.2 兼容 性 问题 
称 优 化 对 于 陷阱 是 安全 的 ， 如 果 在 执行 这 个 优化 之 后 ， 最 初 源 ISA 代码 中 的 每 个 陷阱 在 翻 
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译 过 的 目标 代码 中 都 能 被 观察 到 ， 这 些 陷 阱 要 么 转 到 运行 时 中 的 陷阱 处 理 器 ， 要 人 么 直接 分 支 跳 


转 到 运行 时 。 此 外 ， 在 发 生 陷 阱 的 那 一 点 ， 必 须 可 以 恢复 精确 的 结构 状态 。 目 前 没有 确定 的 规则 ， 
来 精确 地 识别 哪些 优化 是 安全 的 ， 但 是 在 通常 情况 下 如 果 优 化 不 移动 产生 陷阱 的 操作 ， 那 么 该 


优化 就 趋向 于 是 安全 的 。 例 如 ， 复写 传播 、 常 量 传播 ， 以 及 常量 折 秋 优化 等 通常 是 安全 的 。 但 
是 ， 可 能 有 一 些 极端 情况 使 兼容 性 成 为 一 个 问题 ， 例 如 ， 如 果 在 进行 常量 折 释 优化 时 恰好 导致 洲 
出 。 这 种 情况 可 以 在 优化 时 确定 ， 并 且 可 以 在 出 现 这 种 罕见 情况 时 被 中 止 。 

另 一 方面 ， 一 些 优化 可 能 并 不 总 是 安全 的 。 对 于 无 用 分 配 消除 ， 如 果 它 移 除 了 一 条 潜在 产生 陷 
阱 的 指令 ， 就 会 造成 不 安全 ， 因 为 它 可 能 打破 陷阱 兼容 性 一 一 例如 ， 如 果 一 条 进行 无 用 赋值 的 指令 
被 执行 ， 则 最 初 的 源 代码 可 能 会 产生 陷阱 。 如 果 无 用 赋值 消除 移 除 的 是 一 条 不 会 产生 陷阱 的 指令 ， 
那么 该 优化 可 能 是 安全 的 。 然 而 ， 即 使 移 除 这 种 不 产生 陷阱 的 无 用 赋值 代码 ， 仍 然 有 必要 扩展 它 的 
输入 值 的 活跃 范围 ， 以 防 其 他 指令 产生 陷阱 并 且 可 能 需要 利用 这 些 值 来 建立 精确 的 状态 。 

类 似 地 ， 将 指令 提 到 循环 外 也 可 能 是 不 安全 的 ， 因 为 可 能 会 违反 陷阱 兼容 性 。 例 如 ， 在 图 
4-41 中 ， 一 条 潜在 地 产生 陷阱 的 指令 被 外 提 。 在 静态 意义 上 这 条 指令 并 没有 被 移 除 ， 但 是 在 动 
态 意 义 上 指令 已 被 移 除了 一 一 因为 在 最 初 的 代码 中 ， 被 外 提 的 加 法 运算 每 次 通过 循环 时 都 被 
执行 。 

强度 削弱 在 某 些 情况 下 可 能 是 安全 的 ， 但 是 有 时 却 不 是 。 例 如 ， 在 图 4-36 H, REZAK 
弱 到 移 位 运算 可 能 是 不 安全 的 ， 因 为 在 乘法 运算 中 可 能 发 生 的 溢出 ， 在 乘法 被 替换 为 移 位 来 被 
执行 时 将 不 会 出 现 。 另 一 方面 , 通过 加 法 削弱 乘法 (如 用 R + Rl RE R +2) 可 能 是 安全 
的 一 一 因为 加 法 会 观察 到 溢出 。 


4.6.3 超 块 间 的 优化 


到 目前 为 止 讨 论 的 所 有 优化 都 局 限 在 单个 超 块 范围 内 。 在 优化 过 程 中 ， 只 有 单个 超 块 被 缓 
存 和 分 析 。 进 入 和 离开 超 块 时 的 寄存 器 状态 与 在 源 代 码 中 同一 点 处 的 寄存 器 状态 精确 地 一 致 。 
即使 超 块 相对 比较 大 并 且 提 供 了 好 的 优化 时 机 ， 可 能 还 有 空间 用 来 扩展 超 块 边界 的 额外 的 优化 。 
一 种 解决 办 法 是 像 4.3.5 节 描 述 的 那样 使 用 树 艇 。 另 一 种 解决 方法 是 渐 增 地 跨越 超 块 边界 进行 
优化 。 

在 两 个 超 块 被 链接 在 一 起 时 ， 它 们 都 可 以 根据 新 的 控制 流 知识 和 一 个 更 加 完整 的 上 下 文 而 
被 重新 检查 和 优化 。 理 论 上 ， 这 是 被 链接 起 来 的 两 个 超 块 的 完全 重 优 化 和 重 构造 。 然 而 ， 这 会 导 
致 额外 的 优化 开销 并 且 会 影响 精确 状态 的 恢复 〈 即 超 块 出 口 可 能 不 再 是 具有 一 致 的 寄存 器 映射 
的 精确 异常 点 ) 。 此 外 ， 原 始 的 超 块 根据 最 经 常 执行 的 控制 流 路 径 来 进行 优化 ， 并 且 根 据 那 些 达 
不 到 预期 目标 而 提早 退出 的 路 径 来 修改 其 中 的 一 些 优 化 。 因 此 ， 坚 持 最 初 的 超 块 优 化 并 且 只 在 
“ 接 颖 ”跨越 超 块 优化 可 能 是 一 种 更 好 的 方法 。 

图 4-42 给 出 了 一 个 例子 。 这 里 ， 第 一 个 超 块 内 的 寄存 器 2 是 无 用 的 ， 但 是 在 出 口 路 径 LI 
上 可 能 是 活路 的 。 然 而 ， 如 果 当 超 块 被 链接 时 ,检查 提早 退出 分 支 的 自 标 超 块 ， 那么 显然 对 r2 
的 赋值 在 原始 的 超 块 中 实际 上 是 无 用 的 并 且 可 以 被 移 除 (服从 先前 讨论 的 安全 性 要 求 )。 

这 种 优化 可 以 通过 两 个 索引 表 来 实现 (Bala，Duesterwald 和 Banerjia 1999 ) 。 一 个 尾声 〈ep- 
lilog) 索引 表 保 存 一 个 掩 码 ， 用 来 指示 在 退出 超 块 时 潜在 无 用 的 寄存 器 ， 以 及 一 个 指向 最 后 一 条 
对 这 个 寄存 器 赋值 的 指令 的 指针 〈 这 是 潜在 的 无 用 寄存 器 ) 。 一 个 序言 (prolog) 索引 表 保 存 一 
个 掩 码 ， 用 来 指示 当 进 入 超 块 时 在 读 之 前 被 写 人 的 寄存 器 。 图 4-43 说 明了 先前 在 图 4-42 中 给 出 
的 例子 的 表 。 当 两 个 超 块 要 被 链接 时 ， 退 出 超 块 的 掩 码 和 进入 超 块 的 掩 码 按 位 相 与 。 任 何 被 置 位 
的 位 指示 无 用 的 寄存 器 值 。 接 着 可 以 用 尾声 索引 表 中 的 指针 来 找到 它们 。 


124 $4 





超 块 2 
Ll:r2 e r3 + 2 





图 4-42 ”两 个 超 块 被 链接 起 来 。 在 链接 之 后 ， 第 一 个 对 也 的 分 配 可 以 被 确定 为 是 无 用 的 









超 块 1 


r2 er7 


尾声 索引 表 
rl r2 r3 r4... 











超 块 1 Br L1 if r4==0 






序言 索引 表 ao11...0 


ri r2r3r4... 7 010...1 
超 块 2 


沿 着 从 超 块 1 到 超 块 2 的 路 径 
寄存 器 r2 是 无 用 的 ; 超 块 1 中 
的 指令 124-17 可 以 被 移 除 





图 4-43 ”尾声 和 序言 索引 表 。 尾 声 和 序言 索引 表 跨 越 超 块 边界 来 探测 无 用 寄存 器 


另 一 个 可 能 的 优化 是 在 想 要 维持 一 个 一 致 的 寄存 器 状态 映射 的 出 口 点 上 移 除 某 些 对 寄存 器 
复制 。 在 4. 5. 2 节 中 给 出 的 最 后 一 个 扩展 例子 代码 中 , 5 BB 的 复制 〈 位 于 超 块 底部 以 及 在 提 
前 的 出 口 点 ) 的 存在 只 是 提供 寄存 器 ecx 到 3 的 一 致 的 映射 。 在 这 里 ， 如 果 当 进入 后 续 超 块 时 
映射 会 被 改变 《所 以 ecx 被 映射 到 巧 )， 那 么 就 不 再 需要 复制 指令 了 。 为 了 实现 这 种 优化 ， 每 个 
超 块 人 口 应 该 有 一 个 索引 表 ， 指 出 进入 它 时 的 寄存 器 映射 (或 者 指示 那些 与 标准 的 一 致 性 映射 
不 同 的 寄存 器 映射 ) 。 当 有 陷阱 或 中 断 时 ， 为 了 确保 精确 状态 被 正确 恢复 ， 也 要 参考 这 个 表 。 


4.6.4 特定 指令 集 的 优化 


每 个 指令 集 都 有 它 自 己 的 特征 和 脾气 ， 这 可 以 引起 对 特殊 指令 集 的 特定 优化 。 我 们 现在 给 
出 两 个 例子 来 说 明 所 包含 的 原则 。 
第 一 个 例子 是 对 非 对 齐 加 载 的 优化 。 某 些 ISA 的 设计 ， 主 要 是 RISC ISA， 是 通过 将 地 址 对 


KA 
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齐 到 “自然 ”边界 上 ， 例 如 ， 使 得 字 地 址 的 低 两 位 是 00 (52.8.5 节 )， 来 使 加 载 和 存储 指令 提 
供 更 好 的 性 能 。 如 果 一 条 加 载 或 存储 指令 访问 没有 自然 对 齐 的 数据 ， 即 ， 是 “ 非 对 齐 的 " ， 那 么 
它 就 会 产生 陷阱 。 然 后 ， 陷 阱 处 理 器 就 可 以 使 用 多 条 指令 来 执行 非 对 齐 的 访问 。 由 于 它 依赖 于 陷 
阱 ， 导 致 方法 相当 慢 。 因 此 一 种 选择 是 : 对 那些 很 可 能 对 齐 的 情况 ， 则 采用 常规 对 齐 的 加 载 或 存 
储 指令 来 访问 ; 而 对 那些 明显 可 能 是 非 对 齐 的 情况 ， 则 使 用 一 段 被 内 联 的 多 条 指令 的 序列 来 访 
问 。 当 然 ， 针 对 这 种 指令 集 的 静态 编译 器 会 力争 尽 可 能 地 对 齐 数据 。 编 译 器 也 会 知道 什么 时 候 数 
据 可 能 是 非 对 齐 的 ， 然 后 插入 多 指令 序列 。 然 而 ， 当 一 个 具有 非 对 齐 访问 特色 的 源 ISA 被 一 个 没 
有 这 个 特色 的 目标 ISA 仿真 时 ， 则 处 理 非 对 齐 的 访问 会 带 来 一 个 动态 优化 的 机 会 。 

如 果 源 ISA 允许 非 对 齐 的 访问 ,那么 作为 动态 剖析 的 一 部 分 ， 具有 非 对 齐 地 址 的 加 载 和 存 
储 指令 能 够 被 识别 。 也 就 是 说 ， 在 早期 的 仿真 阶段 当 剂 析 被 激活 时 ， 所 有 带 有 非 对 齐 地 址 的 加 载 
和 存储 被 记录 在 表 中 。 然 后 ， 二 进 制 翻译 器 查阅 这 个 表 中 的 剖析 数据 。 如 果 一 个 加 载 或 存储 从 来 
没有 非 对 齐 的 地 址 ,那么 翻译 器 总 是 假设 这 样 的 情况 ， 并 且 使 用 通常 的 〈 对 齐 的 ) 目标 加 载 / 存 
储 指令 。 另 一 方面 ， 对 于 一 个 给 定 的 加 载 或 存储 ， 如 果 出 现 了 非 对 齐 的 访问 ， 那 么 二 进 制 翻译 器 
会 揪 人 适当 的 多 指令 序列 。 当 然 ， 仍 然 必 须 有 一 个 陷阱 处 理 器 来 处 理 那 些 从 剖析 信息 不 能 正确 
识别 的 情况 ， 稍 后 会 使 用 非 对 齐 地 址 的 内 存 访问 指令 。 

特定 指令 集 优化 的 第 二 个 例子 被 称 为 开 - 转换 (Mahlke 等 1992) 。 一 些 指令 集 实 现 了 一 些 特殊 
的 性 质 以 允许 某 些 条 件 分 支 指令 的 移 除 。 这 些 特殊 的 性 质 包括 预测 (Hsu 和 Davidson 1986) 、 无 效 
(Kane 1996) ， 以 及 条 件 转移 指令 。 从 这 种 优化 受益 的 代码 的 例子 在 图 4-44a 中 说 明 。 在 这 个 例子 
里 ， 有 一 小 段 形 如 “ 吊 床 ”的 if-then-else 代码 片段 (图 4-44b)。 这 段 代 码 的 汇编 语言 版 本 在 
图 4-44c 中 。 为 了 执行 这 个 实例 代码 ， 需 要 一 个 条 件 分 支 ， 也 可 能 是 一 个 无 条 件 分 支 。 尽 管 分 支 预 
测 经 常 可 以 减轻 条 件 分 支 的 性 能 下 降 的 效果 ,但 是 当 预 测 是 错误 的 时 候 ， 性 能 损失 会 很 大 。 


| 


If (Cr4 > 0) 


/NN 


If (r4 > 0) then r5 = r5 + 1; then r5=r5 +1 else r5 = fr5 -1 
else r5 = r5 ~ 1; 
r6 = r6 + Pr5 \ 


r6 = r6 + r5 





a) 初始 代码 b) 控制 流 所 形成 的 “ 吊 床 ”图 解 


cmpi ;Compare r4 with zero 

bgt ;branch to skip if r4 > 0 
addi sadd 1 to r5 

b ‘branch to next 

subi ;sub 1 from r5 

add ;accumulate r5 values in r6 


c) 带 有 分 支 的 汇编 代码 
cr0,r4,0 ;compare r4 with zero 
addi r30,r5,1 ;add 1 to r5 
subi r5,r5,1 ;Sub 1 from r5 
cmovgt r5,r30,cr0 ;conditional move r30 to r5 if r4 > 0 
r6,r6,r5 ¡accumulate r5 values in r6 










d) H- 转换 后 的 汇编 代码 
图 4-44 下 -转换 的 例子 
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为 此 在 这 个 例子 中 ， 我 们 通过 添加 一 个 整 型 条 件 移动 指令 “增强 ”了 PowerPC 指令 集 
(PowerPC 指令 集 有 针对 浮 点 数 的 条 件 移动 指令 ， 但 没有 针对 整 型 数据 的 ) 。 如 果 特 定 的 条 件 寄 
存 器 指示 为 “大 于 ”， 则 这 个 条 件 移 动 指 令 〈 在 这 个 例子 里 是 cmovgt) 将 第 一 个 源 寄存 器 的 值 移 
动 到 目标 寄存 器 中 。 利 用 这 个 条 件 移动 指令 ， 可 以 按 如 图 4-44d 的 形式 实现 吊 床 区 域 。 这 里 ， 
+1 和 巧 -1 都 被 计算 。 然 后 ， 条 件 移动 实质 上 会 选择 其 中 正确 的 一 个 。 这 样 就 形成 了 一 段 没 
有 条 件 分 支 的 代码 序列 (或 者 针对 此 的 任何 其 他 分 支 ) 。 


4.7 相同 -ISA 优化 系统 : 特殊 的 进程 虚拟 机 


某 些 进程 虚拟 机 执行 动态 优化 时 没有 执行 二 进 制 翻译 。 亦 即 ， 这 些 动态 优化 器 具有 相同 的 
源 和 目标 SA。 尽 管 通常 不 称 这 些 为 虚拟 机 ， 但 是 它们 确实 向 进程 提供 了 一 个 性 能 增强 的 执行 环 
境 ， 并 且 它 们 使 用 许多 和 二 进 制 翻 译 进程 虚拟 机 中 相同 的 技术 。 然 而 ， 与 其 他 进程 虚拟 机 不 同 的 
是 ， 相 同 -ISA 动态 二 进 制 优化 器 的 目标 并 不 是 兼容 性 。 例 如 ， 目 标 可 以 是 性 能 ， 像 Mojo 系统 
(Chen 等 2000) Wiggins/ Redstone 系统 (Deaver, Gorton 和 Rubin 1999) 以 及 最 初 的 HP Dyna- 
mo 系统 (Bala, Duesterwald 和 Banerjia 2000) ， 或 者 它 可 以 是 增强 的 安全 性 ， 像 稍 后 的 Dynamo- 
RIO 项 目 (Bruening, Garnett 和 Amarasinghe 2003 ) 。 尽 管 不 像 刚 提 到 的 系统 那样 提供 相同 层次 的 
透明 性 ， 但 是 Kistler 和 Franz (2001) 也 开发 了 一 个 先进 的 动态 优化 框架 ， 它 使 用 了 在 本 节 讨 论 
的 进程 虚拟 机 的 许多 特性 。 

由 于 它们 的 相似 性 ， 许 多 为 翻译 进程 虚拟 机 提出 的 技术 也 被 用 在 相同 -ISA 动态 二 进 制 优化 
器 上 ， 尽 管 是 以 一 种 比较 简单 的 形式 。 另 一 方面 ， 因 为 源 和 目标 ISA 是 完全 相同 的 ， 这 些 动态 优 
化 器 对 于 全 局 性 能 的 提升 也 有 一 些 特殊 的 机 会 和 好 处 。 

。 易 于 对 未 优化 的 源 二 进 制 代码 进行 快速 的 初始 “仿真 ”， 这 是 因为 源 二 进 制 代 码 可 以 被 直 
接 复制 到 一 个 基本 块 cache 里 ， 并 添加 了 剖析 代码 。 然 后 ， 当 发 现 热 点 代码 段 时 ， 可 以 将 
它们 放 在 一 个 优化 超 块 cache 里 。 图 4-45 说 明了 这 种 方法 ， 并 且 使 用 在 Mojor 系统 以 及 
基于 IA-32 的 DynamoRIO 中 。 注 意 最 初 的 HP Dynamo 系统 在 启动 过 程 中 使 用 解释 ， 而 不 
采用 基本 块 缓存 。 使 用 解释 的 好 处 是 它 避 免 了 每 次 在 被 缓存 的 “翻译 ”代码 和 运行 时 软 
件 之 间 切 换 时 保存 和 恢复 大 量 的 寄存 器 ( 像 在 PA-RISC ISA 那样 ) 。 另 一 方面 ， 在 IA-32 
ISA 中 ， 仅 有 少数 寄存 器 ， 因 此 使 用 基本 块 cache 的 方法 所 带 来 的 开销 将 更 合乎 常理 。 更 
进一步 延伸 这 个 概念 ， 可 以 使 用 一 种 称 为 修补 的 技术 (在 下 一 小 节 中 详细 讨论 ) 来 完全 
避免 对 未 优化 代码 的 解释 和 /或 基本 块 缓存 。 修 补 实际 上 是 在 优化 前 使 用 最 初 的 源 代码 
(不 是 被 缓存 的 副本 ) 来 进行 初始 的 仿真 。 因 此 ， 可 以 使 用 修补 的 唯一 原因 是 因为 源 和 目 
标 ISA 是 相同 的 。 

当 使 用 相同 的 ISA 时 ， 动 态 优化 并 不 是 必要 的 。 特 别 地 ， 如 果 发 现 动态 优化 不 能 提供 性 
能 收益 〈 或 者 甚至 是 损失 ) ， 那 么 动态 优化 器 可 以 “放弃 ”优化 ， 并 简单 地 运行 最 初 的 
代码 。 例 如 ， 如 果 指 令 工 作 和 集 相 当 大 ， 并 且 在 代码 cache 中 由 于 反复 的 重 翻 译 而 翻 来 覆 
去 ,那么 就 会 触发 “放弃 ”。 

基于 采样 的 剖析 可 能 是 更 吸引 人 的 ， 因 为 运行 最 初 的 代码 对 用 户 而 言 不 会 导致 任何 明显 
的 性 能 损失 。 因 此 ， 在 优化 开始 之 前 ， 最 初 的 二 进 制 代码 可 以 在 一 个 相对 长 的 时 间 周 期 
内 被 采样 。 

对 于 基于 软件 插 桩 的 剂 析 ， 一 个 被 成 功 使 用 的 有 趣 技 术 是 复制 要 被 剖析 的 代码 ， 一 个 副 
本 被 完全 插 桩 ， 而 另 一 个 (原始 的 ) 副本 则 包含 了 到 被 插 桩 版 本 的 分 支 (Ronsse 和 De 
Bosschere 2000; Arnold 和 Ryder 2001) 。 当 将 要 收集 剖析 信息 时 (这 可 以 通过 原始 副本 


动态 二 进 制 优化 





中 的 分 支 来 控制 ) ， 原 始 的 代码 副本 会 分 支 进入 到 被 播 桩 的 版 本 中 。 在 收集 剖析 信息 之 


后 ， 被 插 桩 的 版 本 将 分 支 回 原始 副本 中 。 
。 不 存在 指令 语义 不 匹配 问题 。 例 如 ， 源 和 目标 都 有 完全 相同 的 条 件 码 语 义 ， 因 此 消除 了 





仿真 软件 中 特例 的 开销 。 
源 二 进 制 代码 基本 块 cache 超 块 cache 
A | | 
| | | 
| B | | 
| a | | IN pS | 
| | [stub] \ | i 
| | | | | A 
a | ~ > | 
cC | | | | 
ed | V A “4 ke 
| | | | Lod i f sub 
J | | P | | a 
f f ~ I7 t IN 
G | | oe oe 
ao tall | | 
[ | fia) EDI 
| | | 
| | | 
| | | 
| | | 


图 4-45 使 用 基本 块 cache 的 动态 二 进 制 优化 。 为 了 进行 初始 仿真 ， 源 基本 块 被 复制 到 一 个 代码 
cache 中 。 稍 后 将 热点 块 收集 到 被 优化 的 超 块 中 。 在 这 个 例子 里 ， 在 基本 块 cache 里 没有 
链接 ， 因 为 这 些 块 很 少 被 执行 或 者 只 在 启动 时 执行 。 同 样 ， 在 这 个 例子 里 假设 基本 块 
cache 和 超 块 cache 共享 一 个 PC 上 映射 表 , 但 是 实现 上 也 可 以 使 用 单独 的 表 
然而 ， 相 同 -ISA 优化 也 会 出 现 问题 ， 因 为 源 和 目标 内 存 空间 以 及 寄存 器 文件 是 相同 大 小 的 。 
这 对 仿真 过 程 施 加 了 严格 的 限制 ， 尤 其 是 针对 兼容 性 。 因 为 源 和 目标 寄存 器 文件 的 大 小 是 相同 
的 ， 所 以 没有 暂 存 寄 存 器 供 优化 器 使 用 ， 并 且 这 可 能 限制 可 以 执行 的 优化 类 型 。 当 运行 时 软件 保 
存 和 恢复 客户 寄存 器 时 ， 也 会 产生 问题 ， 因 为 为 了 将 寄存 器 加 载 /存储 到 内 存 ， 必 需要 有 一 个 空 
闲 的 寄存 器 (Bala, Duesterwald 和 Banerjia 2000 ) 。 同 样 ， 对 于 内 在 兼容 性 ， 像 3. 3. 2 节 中 讨论 
的 那样 ， 必 须 为 那些 消耗 大 量 或 者 全 部 的 地 址 空间 的 大 型 二 进 制 代 码 做 预先 准备 。 当 然 ， 如 果 客 
户 的 地 址 空间 需求 变 得 太 大 ， 则 运行 时 软件 可 以 放弃 优化 ， 释 放 它 的 地 址 空间 ， 并 且 人 恢复 到 正常 
的 执行 。 
4.7.1 代码 修补 


代码 修补 是 一 个 历史 悠久 的 技术 (Gill 1951) ， 它 被 广泛 用 于 调试 器 以 及 其 他 代码 剖析 和 分 
析 应 用 中 (Larus 和 Schnarr 1995; Tamches 和 Miller 1999; Hunt 和 Brubacher 1999 ) 。 如 前 所 述 ， 
代码 修补 也 可 以 被 应 用 到 相同 -ISA 动态 二 进 制 优化 器 上 。 所 谓 代 码 修 补 ， 指 代码 在 第 一 次 被 遇 
到 时 被 扫描 ， 但 是 没有 被 复制 到 代码 cache 中 ， 而 是 留 在 适当 的 位 置 ， 其 中 某 些 指令 用 其 他 指令 
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来 替代 ， 即 “补丁 ”通常 是 退出 源 代 码 的 分 支 指令 ) 。 这 些 补 丁 通常 将 控制 传递 到 仿真 管理 器 
和 /或 剖析 代码 。 在 补丁 处 的 原始 代码 被 仿真 管理 器 维护 在 一 个 补丁 表 中 ， 以 便 补丁 可 以 稍 后 在 
必要 的 时 候 被 移 除 。 例 如 ， 如 果 一 个 代码 cache 中 的 超 块 被 清除 ， 那 么 补丁 将 控制 流 重 定 向 到 应 
该 被 移 除 的 超 块 中 。 

图 4-46 说 明了 和 图 4-45 中 给 出 的 相同 的 例子 ， 只 是 使 用 修补 来 代 蔡 基 本 块 缓存 。 注 意 在 这 个 
例子 里 ， 消 除了 对 映射 表 的 查找 。 控 制 可 以 通过 在 超 块 形成 时 所 作 的 修补 来 传递 到 被 优化 的 超 块 
中 。 一 个 特别 有 趣 的 情况 在 图 的 底部 说 明 ， 这 里 有 一 个 间接 跳 转 离开 超 块 Y。 在 传统 的 仿真 系统 
中 ， 这 通常 会 引起 一 个 映射 表 查 找 〈 除 非 使 用 软件 跳 转 预测 并 成 功 一 一 见 2.7.2 节 )。 然 而 ， 利 用 
修补 ， 在 超 块 了 末端 的 间接 跳 转 可 以 使 用 源 PC 直接 将 控制 传递 回 源 代码 中 。 如 果 目 标 源 代码 已 经 
被 优化 ， 在 源 二 进 制 代码 中 的 一 个 补丁 立即 将 控制 重 定向 回 超 块 cache 中 。 在 这 个 修补 点 的 分 支 可 


能 是 一 个 高 度 可 预测 的 分 支 ， 因 此 可 以 避免 对 映射 表 的 查找 ， 从 而 可 以 忽略 性 能 损失 。 
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源 二 进 制 代码 


























图 4-46 来 自 于 图 4-45 的 带 有 代码 修补 的 例子 。 不 再 需要 映射 表 查 找 ， 
因为 控制 可 以 被 直接 传递 到 最 初 的 源 二 进 制 代码 中 


除了 性 能 上 的 好 处 ， 另 一 个 更 加 明显 的 好 处 是 有 较 少 的 复制 代码 ; 在 基本 代码 cache H, 不 
必 存 在 源 代码 的 副本 。 修 补 也 有 一 些 缺 点 ; 最 显著 的 是 它 使 自 引用 代码 的 处 理 和 自修 改 代码 的 
处 理 一 样 困难 。 对 于 传统 的 代码 缓存 ， 源 二 进 制 代码 是 完全 不 变动 的 ， 因 此 自 引用 代码 自动 地 读 
入 正确 的 数据 〈 见 3.4.2 节 )。 对 于 代码 修补 ， 就 不 是 这 样 的 情况 了 。 因 此 ， 不 得 不 将 源 代码 设 
为 只 执行 而 获得 保护 。 那 么 把 源 代码 作为 数据 读 入 的 尝试 会 导致 陷阱 ， 它 可 以 被 运行 时 处 理 。 运 
行 时 可 以 利用 修补 表 来 构造 正确 的 数据 返回 给 读 指令 。 

ADORE 系统 (Lu 等 2004) 是 一 个 通过 代码 修补 来 支持 动态 二 进 制 优化 的 例子 。ADORE 系 
统 针对 Intel IPF 指令 集 二 进 制 并 使 用 硬件 剖析 信息 来 支持 优化 ， 包 括 数据 预 取 操作 的 插入 〈Lu 
等 2003 ) 。 
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4.7.2 案例 : HP Dynamo 


Dynamo 系统 是 作为 HP 实验 室 的 一 个 研究 项 目 开 始 的 (Bala，Duesterwald 和 Banerjia 
1999) 。 最 初 是 为 一 个 运行 在 UNIX 和 HP PA8000 ISA 上 的 平台 开发 的 ，Dynamo 的 结构 已 经 被 重 
新 定位 于 IA-32 ISA 以 及 Windows 和 Linux 操作 系统 (Bruening, Duesterwald 和 Amarasinghe 
2001 ) 。 后 来 这 个 项 目 被 作为 DynamoRIO 系统 转让 给 MIT 的 RIO 研究 项 目 。DynamoRIO 系统 已 
经 被 广泛 地 研究 ， 并 且 由 于 它 在 进程 虚拟 机 实现 中 的 创新 以 及 良好 的 文档 化 ， 而 成 为 一 个 有 价 
值 的 资源 。 本 章 中 描述 的 许多 技术 都 是 Dynamo 的 创新 或 者 至 少 是 在 Dynamo 系统 中 使 用 的 。 

Dynamo 的 基本 设计 正 是 沿 着 图 4-4 中 的 线 进行 的 。 它 从 解释 出 发 ， 然 后 在 到 达 一 个 执行 门 
限 以 后 ， 对 超 块 进行 优化 。 像 前 面 节 中 指出 的 那样 ， 在 最 初 的 HP PA8000 实现 中 ， 由 于 当 (从 
运行 时 ) 进入 和 离开 一 个 被 缓存 的 基本 块 时 ， 要 保存 和 恢复 大 量 的 寄存 器 ， 因 此 选择 解释 来 取 
代 基 本 块 缓存 。 在 后 来 的 DynamoRIO IA-32 实现 中 ,使 用 了 基本 块 缓存 。 

对 于 超 块 形成 ，Dynamo 前 析 逆 向 分 支 和 现存 超 块 的 出 口 点 。 当 达到 门限 时 〈 即 发 现 一 个 热 
A), ， 它 使 用 最 近 被 执行 的 启发 式 探测 (在 Dynamo 术语 中 ， 称 为 最 近 被 执行 的 尾部 (most re- 
cently executed tail) ) 来 构造 超 块 。 图 4-47 显示 了 来 自 于 Dynamo 技术 报告 的 数据 ， 它 说 明了 用 
一 组 基准 测试 程序 测试 所 得 的 热点 门限 和 全 局 加 速 比 之 间 关 系 (注意 对 于 性 能 被 损失 的 程序 ， 
Dynamo 会 放弃 优化 ， 因 此 实际 上 很 少 会 有 性 能 损失 ) 。 总 之 ， 门 限 值 50 被 认为 是 最 好 的 选择 。 

Dynamo 使 用 了 许多 先前 描述 的 优化 技术 ， 但 是 它 不 倾向 于 重 排 代码 〈 它 是 为 在 一 个 乱 序 的 
超标 量 处 理 器 上 运行 而 设计 的 ) Dynamo 研究 发 现在 安全 的 优化 〈 即 那些 维持 陷阱 兼容 性 的 优 
化 ) 中 ， 最 普遍 应 用 的 是 强度 削弱 ， 其 次 是 元 余 的 分 支 移 除 。 在 那些 更 激进 的 、 潜 在 不 安全 的 
优化 中 ， 宛 余 加 载 和 无 用 赋值 消除 是 最 常见 的 ， 代 码 下 沉 也 提供 了 相当 数量 的 优化 机 会 。 一 条 加 
载 指令 是 元 余 的 ， 如 果 在 它 前 面 存在 有 一 条 到 相同 地 址 的 加 载 (或 存储 ) FES, 并且 先 前 被 加 
载 或 存储 的 值 保存 在 一 个 寄存 器 中 。 克 人 余 的 加 载 随 后 被 替换 为 一 个 寄存 器 复制 操作 。 当 然 ， 如 果 
加 载 或 存储 有 对 易 失 性 存储 位 置 的 任何 可 能 性 ， 那 么 就 不 能 将 该 加 载 或 存储 认为 是 宛 余 的 。 
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图 4-47 相对 加 速 比 作为 超 块 形成 的 门限 值 的 函数 。Y 轴 给 出 了 在 本 地 执行 过 程 中 的 
百分比 加 速 比 。T 值 是 初始 化 超 块 形成 的 “热点 ”门限 
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对 于 代码 cache 的 管理 ，Dynamo 使 用 了 抢占 的 清除 技术 。 即 ， 它 监视 新 超 块 形成 的 速度 。 
如 果 超 块 形成 的 速度 开始 明显 地 增加 ， 它 就 假设 进入 到 一 个 新 的 程序 阶段 ， 并 且 在 那 一 点 清空 
代码 cache。 然 而 ， 反 复 的 清空 表明 一 个 指令 工作 集 太 大 了 ， 不 适合 代码 cache， 因 此 Dynamo 放 
弃 优 化 并 执行 最 初 的 代码 而 并 不 优化 它 。 

像 先前 提 到 的 那样 ， 当 进行 相同 -ISA 优化 时 ，Dynamo 的 研究 者 面临 着 缺少 暂 存 寄存 器 。 因 
为 源 和 目标 ISA 必须 要 有 相同 数目 的 寄存 器 ， 所 以 没有 剩余 的 寄存 器 留 给 其 他 操作 。 例 如 ， 
2.7.2 节 的 软件 跳 转 预测 需要 一 个 额外 的 寄存 器 来 与 间接 跳 转 源 寄存 器 相 比 较 。 同 样 ， 大 多 数 包 
括 代码 移动 的 操作 会 导致 活跃 范围 的 扩展 ， 因 此 需要 同时 保存 更 多 的 寄存 器 值 。 最 后 ， 当 有 一 个 
从 代码 cache 到 运行 时 软件 的 切换 时 ， 至 少 必须 保存 某 些 寄存 器 以 便 运 行 时 可 以 使 用 它们 来 
执行 。 

在 传统 的 系统 中 ， 解 决 办 法 是 使 寄存 器 游 出 到 一 个 保留 区 域 中 。 然 而 ,在 HP ISA (和 许多 
其 他 ISA) 中 ， 为 了 保存 寄存 器 需要 一 个 寄存 器 指针 (指向 寄存 器 保留 区 ) RA, ATER 
放 寄 存 器 ， 一 个 寄存 器 必须 被 释放 ) ; 这 导致 了 一 种 窘境 。Dynamo 的 解决 方法 是 在 一 个 被 优化 
的 超 块 形成 以 后 ， 执 行 第 二 次 寄存 器 分 配 遍 。 在 第 二 饥 执 行 过 程 中 ， 它 查找 在 一 个 保存 超 块 内 无 
用 值 的 寄存 器 ， 并 且 使 用 其 中 之 一 作为 寄存 器 保留 区 的 指针 。 如 果 不 能 找到 这 样 的 无 用 寄存 器 ， 
那么 为 了 维护 保留 区 指针 ， 它 临时 地 将 一 个 活 牙 的 寄存 器 溢出 到 内 存 中 。 这 种 普通 的 方法 提出 
了 两 个 在 Dynamo 报告 中 没有 直接 陈述 的 问题 。 第 一 个 是 在 发 生 陷阱 之 后 的 严格 寄存 器 状态 兼容 
性 问题 ; 即 ， 重 用 一 个 显然 无 用 的 寄存 器 破坏 了 它 的 内 容 ， 这 会 导致 在 陷阱 处 理 器 中 寄存 器 状态 
不 兼容 。 第 二 个 是 保护 寄存 器 保留 区 的 问题 (3. 4.3 节 )。 一 个 恰好 访问 寄存 器 保留 区 的 “ 调 
皮 ” 加 载 或 存储 会 导致 不 兼容 的 、 错 误 的 结果 。 这 些 问 题 表 明 在 动态 优化 器 中 是 难以 实现 内 在 
兼容 性 的 。 如 果 存 在 某 些 〈 外 在 的 ) 保证 使 被 优化 的 应 用 能 摆脱 这 些 问题 (并 且 许 多 被 调试 的 
应 用 不 会 表现 这 些 问题 ) ， 那 么 无 用 寄存 器 方法 会 运转 得 很 好 。 

为 了 将 Dynamo 进程 虚拟 机 集成 到 主机 平台 上 ， 假 设 使 用 内 核 加 载 器 来 加 载 客户 应 用 。 内 
核 加 载 器 将 执行 启动 代码 ca 链接 到 客户 应 用 中 。 当 加 载 器 完成 时 ， 它 将 执行 转移 到 ctr0 以 
初始 化 这 个 进程 。 在 Dynamo 中 ， 使 用 了 一 个 ctr0 的 定制 版 本 。 这 种 新 版 本 的 ctr0 将 Dynamo 
代码 映射 为 一 个 链接 库 ， 并 且 调 用 Dynamo 的 入 口 点 。 然 后 Dynamo 运行 时 系统 控制 客户 进程 
的 执行 。 

Dynamo 性 能 在 图 4-48 中 给 出 。 其 中 Dynamo 被 应 用 于 那些 最 初 被 HP 编译 器 在 不 同 级 别 上 
加 以 优化 的 源 二 进 制 代码 上 。 图 中 展示 了 三 个 渐 增 级 别 的 优化 性 能 (MA + O2 3) +04), 04 级 别 
同样 利用 传统 的 反馈 到 编译 过 程 的 代码 剖析 来 被 增强 (图 4-11a)。 性 能 按 总 运行 时 间 (执行 时 
间 ) 给 出 ， 因 此 数字 越 小 越 好 。 我 们 看 到 当 单 独 应 用 Dynamo 时 ， 对 于 所 有 三 个 优化 级 别 ， 都 提 
高 了 全 局 性 能 ， 但 是 没有 提高 “ + O4 + profiling” 的 性 能 。 

图 4-49 说 明了 原因 ， 它 利用 02 优化 分 解 了 Dynamo 的 性 能 。 图 中 说 明了 最 大 的 收益 出 现在 
任何 优化 被 执行 之 前 。 换 句 话 说， 大 多 数 性 能 收益 来 自 于 部 分 过 程 内 联 和 超 块 形成 。 这 与 反馈 剂 
析 (Æ “ +04+ profiling” +) 提供 的 收益 相同 。 即 剖析 信息 用 于 重新 布局 代码 以 增强 局 部 性 。 
从 图 4-49 中 我 们 也 看 到 “保守 的 ”( 安 全 的 ) 和 “激进 的 ”优化 提供 了 相似 的 收益 〈 尽 管 在 不 
同 的 基准 测试 程序 上 ) 。 这 表明 ， 如 果 没 有 执行 激进 的 不 安全 优化 ， 则 会 保持 相当 数量 的 全 局 性 
能 收益 。 最 后 ， 注 意 在 Dynamo 性 能 损失 的 情况 (如 基准 测试 程序 go, jpeg, vortex 以 及 boise) 
下 ,会 放弃 优化 ， 以 便 不 再 发 生性 能 损失 。 


Zh As it HEE 131 





600 












a Native +02 
m Native +03 
o Native +04 
O Native +04 +P 
m Dynamo +02 

B Dynamo +03 

m Dynamo +04 

m Dynamo +04 +P 


400 





区 
= 300 
ie 
K) 
200 
100 
$ RY 2 S p O S ot PP $ L 
& gÙ s 人 es <$ Ra RG 
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图 4-49 ”针对 超 块 形成 〈 没 有 优化 ) 、 激 进 优化 以 及 保守 优化 时 HP Dynamo 的 性 能 改善 
4.7.3 讨论 


当 与 传统 的 离线 直接 反馈 的 优化 相 比较 时 ( 见 4.2.1 节 )， 像 图 4-48 中 “+ O4 + profiling” 
所 作 的 那样 ， 动 态 二 进 制 优化 似乎 没有 或 很 少 有 性 能 优势 。 在 很 大 程度 上 ， 离 线 优化 使 用 了 类 侯 
的 基于 剖析 的 信息 来 进行 类 似 的 优化 。 尽 管 一 个 显著 的 差别 是 : 对 于 动态 优化 ， 如 果 程序 行为 在 
执行 过 程 中 变化 ， 则 可 以 改变 应 用 到 一 个 代码 区 域 的 优化 。 同 样 ， 在 实际 中 许多 二 进 制 代码 没有 
受到 内 在 优化 的 影响 ; 即 ， 对 于 不 同 的 理由 ,二进制 代码 有 时 “ 载 有 ”和 较 少 的 优化 。 在 这 些 情 
况 下 ,动态 二 进 制 优化 可 以 通过 允许 优化 发 生 在 这 个 领域 来 提供 性 能 优势 。 
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另外 要 考虑 的 问题 是 用 在 初始 的 Dynamo 研究 中 的 底层 HP 硬件 平台 没有 预测 间接 跳 转 ; 而 
是 在 遇 到 一 个 间接 跳 转 时 ， 则 临时 停止 取 指 。 因 此 ， 用 内 联 分 支 和 部 分 过 程 内 联 来 代替 间接 跳 
转 ， 消 除了 某 些 间 接 跳 转 ， 在 HP 硬件 上 带 来 了 显著 的 性 能 收益 。 当 使 用 带 有 间接 跳 转 预测 的 硬 
件 时 (正如 在 大 多 数 当代 微 处 理 器 中 )， 显 著 地 降低 了 动态 优化 的 性 能 优势 。 在 IA-32 版 本 中 ， 
DynamoRIO (Bruening, Duesterwald 和 Amarasinghe 2001)， 间 接 跳 转 处 理 作 为 全 局 性 能 损失 的 
一 个 显著 原因 而 被 引用 。 许 多 间接 跳 转 引 起 性 能 损失 是 由 于 为 了 找 出 代码 cache 中 的 目标 PC 值 
而 发 生 对 映射 表 查 找 产 生 的 。 然 而 ， 正 如 我 们 已 指出 的 ， 代 码 修 补 方法 避免 了 对 这 些 散 列表 的 查 
找 ; 实际 上 ， 在 动态 二 进 制 优化 器 中 ， 这 一 特性 本 身 可 能 是 在 完整 的 代码 缓存 过 程 中 支持 代码 修 
补 的 充分 理由 。 
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216 尽管 优化 不 是 功能 上 正确 的 虚拟 机 实现 所 必须 的 ， 但 是 它 对 于 许多 实际 的 虚拟 机 实现 是 重 
18| 要 的 。 由 于 虚拟 增加 了 性 能 开销 ， 所 以 最 小 化 性 能 损失 就 很 重要 ， 而 优化 技术 可 以 减少 性 能 
损失 。 
虚拟 机 实现 采用 的 最 普遍 的 结构 是 使 用 带 有 解释 或 者 简单 翻译 的 分 阶段 仿真 ， 并 伴随 着 优 
化 的 二 进 制 翻译 。 在 早期 阶段 ， 为 了 指导 优化 过 程 ， 通 常会 激活 剖析 ， 有 时 前 析 是 为 了 被 优化 的 
代码 而 被 激活 。 大 体 上 ， 最 大 的 性 能 收益 通常 来 自 于 具有 良好 的 局 部 性 特性 的 翻译 块 的 形成 ， 如 
被 内 联 的 过 程 和 超 块 。 在 翻译 过 的 超 块 被 链接 起 来 以 后 ， 执 行 的 性 能 经 常 可 以 接近 在 本 地 主机 
上 的 执行 。 
全 局 优化 过 程 的 最 复杂 问题 是 在 发 生 陷 阱 或 中 断 时 需要 恢复 正确 的 状态 。 这 个 要 求 的 严格 
程度 依赖 于 所 实现 的 虚拟 机 的 类 型 和 用 户 的 需求 (和 应 用 ) 。 如 果 必 须 满 足 非常 严格 的 要 求 ， 比 
如 如 果 需 要 内 在 的 兼容 性 ， 那 么 在 大 多 数 虚拟 机 优化 中 可 能 被 限制 在 代码 重 布局 和 不 移动 指令 
的 简单 优化 上 。 
另 一 个 复杂 因素 是 客户 和 主机 的 寄存 器 和 内 存 空 间 之 间 的 相对 大 小 。 如 果 主 机 有 较 大 的 寄 
存 器 文件 和 内 存 空间 ， 那 么 优化 被 简化 并 且 通 常 比较 简单 。 另 一 方面 ， 如 果 主 机 没有 更 多 的 寄存 
项 和 地 址 空间 〈 或 者 更 糟糕 ， 寄 存 器 和 地 址 空间 更 少 ) ， 那 么 优化 就 变 得 更 加 复杂 了 ， 并 且 在 某 
些 情 况 下 可 能 有 显著 的 减 慢 。 
最 后 ， 我 们 经 常 认为 动态 优化 被 应 用 于 进程 虚拟 机 ， 与 ISA 翻译 相 协作 或 者 纯粹 为 了 优化 。 
然而 ， 这 些 技术 并 不 局 限于 进程 虚拟 机 。 例 如 ， 优 化 是 协同 设计 虚拟 机 的 一 个 非常 重要 的 部 分 
(第 7 章 ) 。 此 外 ， 像 我 们 将 在 8. 2. 3 节 中 看 到 的 那样 ， 代 码 缓存 和 /或 者 代码 修补 是 某 些 传统 系 
统 虚 拟 机 实现 的 重要 部 分 。 


第 5 章 高 级 语言 虚拟 机 结构 


一 个 计算 机 系统 实现 一 个 特殊 的 ISA 并 且 运 行 一 个 特定 的 操作 系统 ， 这 仅仅 是 达到 目的 的 
一 种 手段 ， 而 应 用 程序 所 做 的 实际 工作 才 是 重要 的 。 毕 竟 ， 在 传统 的 计算 环境 中 ， 一 个 编译 过 的 
应 用 程序 被 紧 紧 地 绑 定 到 一 个 特殊 的 操作 系统 和 ISA 上 。 为 了 把 一 个 应 用 程序 迁移 到 一 个 具有 
不 同 操作 系统 和 /或 JSA 的 平台 上 ， 就 必须 移植 这 个 应 用 程序 ， 这 至 少 包括 重 编译 ， 但 是 也 可 能 
包括 重 写 库 和 /或 对 操作 系统 调用 的 翻译 。 此 外 ， 移 植 必须 在 每 个 程序 的 基础 上 完成 ; GFA, 在 
移植 完成 后 ， 任 何 后 期 的 升级 或 缺陷 修正 必须 被 应 用 到 所 有 移植 后 的 版 本 ， 然 后 进行 重 编译 。 

在 第 3 章 中 描述 的 进程 虚拟 机 是 一 种 以 更 加 透明 和 一 般 的 方式 使 应 用 具有 可 移植 性 的 方法 。 
在 进程 虚拟 机 中 ， 向 客户 进程 提供 了 一 个 虚拟 执行 环境 。 进 程 虚 拟 机 只 要 被 开发 一 次 ， 然 后， 至 
少 在 理论 上 ， 任 何 针对 虚拟 机 的 源 ISA 和 操作 系统 开发 的 应 用 程序 都 无 须 被 额外 处 理 而 即 可 运 
行 。 这 是 通过 仿真 应 用 的 ISA 和 操作 系统 调用 实现 的 。 然 而 ， 像 第 3 章 中 讨论 的 那样 ， 操 作 系 统 
接口 是 难以 仿真 的 (或 者 在 主机 和 客户 操作 系统 不 同时 ， 不 可 能 精确 地 仿真 )。 此 外 ， 因 为 传统 
ISA 都 有 它们 的 怪癖 ， 因 此 写 一 个 高 性 能 的 、 精 确 的 仿真 器 用 来 从 一 个 传统 的 ISA 映射 到 另 一 个 
是 一 项 艰苦 的 任务 。 

因此 ， 传统 的 进程 虚拟 机 实际 是 解决 应 用 可 移植 性 问题 的 一 个 “事后 ”方法 。“ 事 后 ”的 意 
义 就 是 不 论 客户 机 程序 还 是 主机 平台 在 设计 上 都 没有 考虑 到 这 个 客户 机 程序 将 被 运行 在 这 个 主 
机 平台 之 上 。 相 反 ， 通 过 退 后 一 步 ， 可 以 基于 虚拟 机 提供 的 到 各 种 主机 平台 的 可 移植 性 为 主要 目 
标 ， 来 设计 一 个 特殊 的 客户 机 ISA 或 系统 接口 。 因 此 ， 在 很 大 程度 上 ， 新 的 ISA 被 设计 成 没有 怪 
癖 并 且 独 立 于 与 具体 实现 相关 的 计算 资源 。 而 且 ， 通 过 统一 操作 系统 的 一 般 特 性 和 定义 一 个 被 
所 有 传统 操作 系统 支持 的 抽象 接口 (一 组 库 ) ， 由 虚拟 机 支持 的 系统 接口 将 被 提升 到 比 典型 操作 
系统 接口 更 高 的 抽象 层次 。 

正如 和 可 移植 性 一 样 重要 ， 可 以 设计 客户 机 ISA 使 得 它 反映 出 特定 高 级 语言 (HLL) 或 者 
一 类 高 级 语言 (如 面向 对 象 语言 ) 的 重要 特征 。 这 导致 了 目标 高 级 语言 的 高 效 实 现 ， 并 且 通 过 
分 离 编译 器 的 机 器 独立 和 机 器 依赖 部 分 来 简化 编译 过 程 。 因 为 高 效 地 支持 特定 的 高 级 语言 是 这 
些 虚拟 机 的 目标 之 一 ， 我 们 把 它们 称 为 高 级 语言 虚拟 机 (HLL VMs), 

一 个 高 级 语言 虚拟 机 与 传统 的 进程 虚拟 机 是 类 似 的 ， 但 是 ISA 通常 仅仅 是 为 用 户 模 式 的 程 
序 定 义 的 ， 并 且 不 是 针对 一 个 真实 的 硬件 处 理 器 而 设计 的 一 一 它 将 仅仅 在 一 个 虚拟 机 的 处 理 器 ” 
上 执行 。 因 此 ， 我 们 把 它 称 为 虚拟 JSA， 或 者 V-ISA。 系 统 接口 是 一 组 标准 库 〈 称 为 “APIs”) ， 
例如 ， 它 们 可 以 访问 文件 ， 执 行 网 络 操作 ， 和 执行 图 形 操作 。 高 级 语言 虚拟 机 被 设计 为 支持 在 许 
多 操作 系统 和 硬件 平台 上 运行 《理想 地 应 包括 所 有 的 一 一 但 是 至 少 是 经 常 使 用 的 )。 

需要 补充 的 是 ， 一 个 虚拟 ISA 通常 不 仅仅 包含 指令 。 在 一 个 现代 V-ISA 中 ， 数 据 至 少 和 指 
令 一 样 重要 。 因 此 ， 针 对 现代 V-ISA， 其 规范 包括 元 数据 的 元 长 定义 ， 并且 元 数据 经 常 支配 整个 
规范 。 相 反 ， 指 令 定义 却 相当 简单 。 事 实 上 ， 用 数据 级 结构 这 个 术语 要 比 指令 集结 构 更 合适 。 不 
管 怎样 ， 我 们 使 用 只 取 首 字母 的 缩写 词 Y-ISA， 因 为 它 与 传统 计算 机 系统 中 的 ISA 相对 应 。 





© 然而 Sun (McGahn 和 O'Connor 1998) 和 ARM (ARM 2002) 已 经 开发 了 支持 Java ISA 的 处 理 器 。 


221 





222 


134 BSF 


高 级 语言 程序 








可 移植 代码 
(虚拟 ISA) 





a) b) 
图 5-1 PEREA (Gla) 与 高 级 语言 虚拟 机 中 的 编译 器 和 加 载 器 CSL b 图) 之 间 的 关系 


我 们 可 以 从 语言 /编译 器 的 观点 来 看 待 审视 高 级 语言 虚拟 机 ， 如 图 5-1 所 示 。 图 5-1a 显示 了 
从 高 级 语言 程序 到 在 硬件 上 执行 的 二 进 制 代 码 的 常规 步 又。 编译 器 的 前 端 首 先 解析 程序 并 将 它 
转化 为 中 间 形 式 。 然 后 编译 器 的 后 端 接受 中 间 形 式 ， 可 能 在 它 上 面 执行 优化 ， 并 且 产 生 目 标 代 
码 。 目 标 代码 是 一 种 类 ISA 的 形式 ， 除 了 某 些 符号 信息 必须 在 加 载 时 被 解析 。 最 后 ， 加 载 器 将 目 
标 代 码 转换 为 被 底层 硬件 处 理 器 执行 的 内 存 上 映像。 程序 通常 以 月 标 代码 (“ 二 进 制 " ) 的 形式 被 
分 发 ， 因 为 这 种 代码 特定 于 一 个 SA 和 操作 系统 ， 它 只 能 在 兼容 的 平台 上 运行 。 对 于 高 级 语言 虚 
拟 机 (图 5-1b) ， 编 译 器 的 前 端 解析 并 将 程序 转换 为 虚拟 ISA 的 形式 ， 这 在 某 些 方面 类 似 于 传统 
的 中 间 形 式 。 然 后 程序 以 这 种 形式 分 发 。 当 在 高 级 语言 虚拟 机 上 的 执行 准备 就 绪 时 ， 会 调用 一 个 
虚拟 机 加 载 器 并 且 将 程序 转换 为 依赖 于 虚拟 机 实现 的 形式 。 额 外 的 优化 可 以 作为 仿真 过 程 的 一 
部 分 被 执行 。 仿 真 包括 从 客户 V-ISA 到 主机 ISA 的 解释 和 /或 二 进 制 翻译 。 虚 拟 机 加 载 器 和 解释 
器 /翻译 器 是 高 级 语言 虚拟 机 实现 的 主要 部 分 。 

这 些 年 来 ， 语 言 设计 者 针对 特定 的 高 级 语言 或 高 级 语言 族 开 发 了 许多 高 级 语言 虚拟 机 。 一 
个 推广 图 5-1b 所 示 方 法 的 高 级 语言 虚拟 机 是 为 Pascal 程序 语言 实现 的 ， 它 使 用 了 一 个 称 为 P-code 
的 V-ISA。 目前 最 著名 的 高 级 语言 虚拟 机 实例 是 为 支持 Java 程序 语言 而 设计 的 (Gosling, Joy 和 
Steele 1996) ， 尽 管 其 他 语言 也 已 经 成 功 地 编译 到 Java 虚拟 机 。Java 程序 首先 被 编译 为 Java 二 进 
制 类 9 ， 它 包括 丰富 的 元 数据 和 低级 指令 ， 这 些 被 编码 成 “ 字 节 码 ” 序 州 。Java 虚拟 机 (JVM) 
随后 加 载 二 进 制 类 并 执行 它们 。 一 个 更 近 的 高 级 语言 虚拟 机 ， 通 用 语言 基础 (CL), E 
软 . NET 框 架 的 一 部 分 。CLI 是 以 相对 广泛 的 常用 高 级 语言 为 目标 来 设计 的 ， 主 要 针对 面向 对 象 
语言 ; 当然， 也 支持 非 面向 对 象 语言 。 

由 于 Java 和 CLI 串 拟 机 极为 重要 ， 而 且 它们 有 很 多 相似 性 ， 接 下 来 的 两 章 与 其 他 章 的 组 织 
略微 不 同 。 我 们 不 是 描述 各 种 一 般 的 特征 ， 然 后 以 相对 简短 的 案例 研究 来 结束 ; 而 是 围绕 Java 
和 JVM 来 展开 许多 讨论 。Java 虚拟 机 被 广泛 使 用 ， 是 许多 研究 的 焦点 ， 并 且 这 些 研究 都 有 比较 
完整 的 文档 。 我 们 也 讨论 微软 的 CLI， 主 要 是 突出 与 JVM 的 不 同 以 及 在 CLI 中 比 IVM 中 能 更 清 
楚 描 述 的 特征 。 

本 章 集中 于 高 级 语言 虚拟 机 的 结构 ， 即 功能 规格 和 重要 属性 的 描述 。 下 一 章 集 中 于 高 级 语 
言 虚 拟 机 的 实现 ， 即 实际 构造 高 级 语言 虚拟 机 的 方法 ， 包 括 增强 高 级 语言 实现 的 性 能 的 技术 。 在 
某 些 情况 下 ， 这 个 划分 是 相当 随意 的 一 一 不 深入 研究 实现 的 某 些 方面 是 难以 进行 纯 结构 的 讨论 。 
在 这 两 章 里 ， 我 们 着 重 强调 支持 面向 对 象 语言 的 高 级 语言 虚拟 机 。 然 而 ， 在 一 些 重 要 的 细节 上 ， 





O 二进制 类 通常 指 类 文件 ， 但 严格 地 讲 ， 它 们 不 必 被 储存 为 文件 ， 因 此 二 进 制 类 这 一 术语 更 常用 。 
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讨论 面向 对 象 程 序 语言 和 概念 是 不 实际 的 。 在 这 一 章 里 ， 我 们 仅仅 提供 对 比较 重要 的 Java 语言 
性 质 的 简要 总 结 。 因 此 ， 为 了 更 好 地 理解 这 些 内 容 ， 读 者 有 必要 熟悉 一 种 面向 对 象 语 言 ， 如 Java 
或 C#。 在 学 习 或 回顾 这 些 内 容 时 ， 有 很 多 好 书 可 以 参考 ; 例如 ，Java 和 C# 技 术 手 册 (Java and 
C# in a nutshell) (Flanagan 1999; Drayton, Albahari 和 Neward 2002) 包含 了 相当 简明 的 描述 。 
在 描述 重要 的 面向 对 象 高 级 语言 虚拟 机 之 前 ， 我 们 首先 描述 一 个 历史 上 重要 的 高 级 语言 
拟 机 一 一 这 也 将 为 说 明 许多 高 级 语言 虚拟 机 的 重要 的 平台 无 关 性 提供 一 个 机 会 。 不 过 ， 我 们 会 
看 到 ， 对 当代 的 基于 组 件 的 、 面 向 网 络 的 高 级 语言 虚拟 机 而 言 ， 平 台 无 关 仅 仅 是 其 表面 部 分 。 


5.1 Pascal P-code 虚拟 机 


Pascal P-code 虚拟 机 (Nori 等 1975) 是 Pascal 高 级 程序 语言 受到 普遍 欢迎 的 关键 之 一 ， 因 
为 它 极 大 地 简化 了 Pascal 编译 器 的 移植 。 由 于 它 在 历史 上 的 重要 性 和 它 的 简单 性 ， 一 个 简明 的 了 - 
code 虚拟 机 的 案例 研究 是 介绍 某 些 重要 的 高 级 语言 虚拟 机 概念 的 一 个 好 方式 。 图 5-1 描述 了 基本 
思想 。 编 译 器 的 前 端 解析 一 个 Pascal 程序 并 且 产 生 一 个 P-code 程序 。 简 要 地 说 ，P-code 是 一 个 
简单 的 、 面 向 栈 的 指令 集 。Pascal 编译 器 和 P-code 虚拟 机 的 组 合 为 给 定 主机 平台 产生 一 个 完整 的 
Pascal 编译 器 和 运行 系统 。 编 译 器 只 需要 被 开发 〈 作 为 Pcode 分 发 ) 一 次 ， 当 将 Pascal 移植 到 一 
个 新 的 主机 平台 时 ， 只 需要 实现 这 个 虚拟 机 即 可 ， 这 上 比 从 头 写 一 个 完整 的 Pascal 编译 器 要 容易 
得 多 。 - 
实际 上 ，P-code 虚拟 机 有 两 个 主要 部 分 : 一 个 是 P-code 仿真 器 (经 常 是 一 个 解释 器 ) ， 另 一 
个 是 一 组 与 主机 操作 系统 接口 来 实现 VO 的 标准 库 例 程 。 例 如 ， 库 例 程 readIn( ) 和 writeln( ) 
分 别 是 读 和 一行 和 输出 一 行 。 这 些 例 程 可 以 通过 P-code 来 调用 , 但 是 例 程 本 身 可 以 被 写 到 (或 
编译 成 ) 主机 平台 的 本 地 汇编 代码 中 。 把 这 些 标准 库 例 程 写 和 本 地 代码 连同 编写 解释 器 都 是 虚 
拟 机 开发 过 程 的 一 部 分 。 


5.1.1 AGAR 


P-code V-ISA 使 用 一 个 由 一 个 程序 内 存 区 、 一 个 常量 区 、 一 个 栈 和 一 个 关于 数据 的 内 存 堆 组 
成 的 内 存 模型 。 只 有 程序 计数 器 (PC) 可 以 从 程序 内 存 区 中 取 指 令 ， 其 他 情况 下 ， 不 能 对 程序 
内 存 进 行 读 或 写 。 图 5-2 说 明了 内 存 的 数据 区 。 所 有 的 数据 区 被 划分 成 单元 ， 而 每 个 单元 可 以 保 
存 一 个 单一 的 值 。 单 元 的 实际 大 小 是 依赖 于 实现 的 ， 但 是 显然 要 大 到 足够 容纳 在 P-code 中 指定 
的 最 大 值 。 编 译 器 产生 的 值 被 保存 在 常量 区 ; 这 些 通 常 是 被 程序 使 用 的 立即 数 。 一 个 单一 的 栈 既 
可 以 充当 过 程 栈 ， 如 用 于 保存 过 程 的 连接 信息 、 参 数 和 局 部 变量 ， 也 可 以 作为 指令 执行 的 一 个 操 
作 数 〈 或 者 计算 ) 栈 。 在 任何 给 定时 间 内 ， 标 志 指 针 (MP, mark pointer) 指向 当前 活动 的 程序 
的 栈 帧 的 开始 ， 而 极限 指针 CEP) 则 指向 当前 栈 桢 可 以 到 达 的 最 大 范围 (在 一 个 有 效 的 Pascal 
程序 中 ,在 编译 时 可 以 确定 此 范围 ) 。 

堆 空间 位 于 常量 区 的 项 部， 并 且 用 于 存储 动态 分 配 的 数据 结构 。 在 任何 给 定时 刻 ， 新 指针 
(NP) 描述 了 堆 的 最 大 范围 。 在 Pascal 中 ， 对 于 堆 分 配 的 数据 结构 ， 用 户 代码 负责 在 它们 不 再 需 
要 时 释放 它们 ， 而 虚拟 机 软件 则 负责 堆 区 域 的 全 局 管理 。 概 念 上 ， 栈 从 顶端 向 下 增长 而 堆 (位 
于 常量 区 的 顶部 ) 则 从 底部 向 上 增长 。 在 NP 向 上 调整 之 前 ， 它 要 检查 EP 以 确定 还 有 足够 的 内 
存 ， 否 则 会 发 生 异 常 。 

当 一 个 过 程 被 调用 时 ， 它 被 给 予 一 个 新 的 栈 帧 。 图 5-2 右边 示意 了 这 个 栈 被 分 成 几 个 部 分 。 
返回 函数 值 、 静 态 链 、 动 态 链 、 前 一 个 EP 和 返回 地 址 是 处 在 栈 帧 开始 的 固定 大 小 区 域 ， 合 起 来 
被 称 为 标志 栈 。MP 指向 标志 栈 的 基 址 〈 也 是 整个 栈 帧 的 基 址 ) 。 
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K 5-2 P-code 内 存 结构 


函数 值 从 函数 返回 一 个 结果 值 ( 如 果 有 的 话 ) ; 静态 链 用 来 静态 链接 在 套 过 程 以 访问 在 活动 
过 程 范围 内 的 局 部 变量 。Pascal 语言 支持 典 套 过 程 的 定义 ， 静态 过 程 嵌 套 确定 局 部 变量 的 作用 
域 。 也 就 是 说 ， 在 给 定 的 源 代码 过 程 内 声明 的 局 部 变量 可 以 被 任何 藤 套 在 那个 过 程 内 的 过 程 访 
问 。 动 态 链 是 前 一 个 栈 桢 的 MP 值 ， 并 且 它 允许 栈 被 弹出 而 回 到 前 一 个 栈 桢 。 当 活动 过 程 返 回 
时 ， 前 一 个 EP 被 类 似 地 用 来 建立 EP 值 。 返 回 地 址 是 活动 过 程 应 该 返回 到 的 PC 值 。 

在 一 个 栈 桢 中 跟 在 标志 栈 之 后 的 是 传递 给 过 程 的 参数 和 在 给 定 过 程 中 声明 的 局 部 变量 。 最 
后 ， 当 执行 栈 指令 时 ， 操 作 数 栈 被 用 来 保存 操作 数 和 中 间 值 。 栈 指针 、SP、 指 向 当前 操作 数 栈 
的 顶端 并 且 随 着 计算 的 进行 而 上 下 移动 (不 像 EE， 它 标志 SP 的 最 远 的 范围 ) 。 


5. 1.2 指令 集 


基本 的 指令 集 包 括 将 值 从 内 存 区 中 压 人 栈 或 者 从 栈 中 弹出 值 到 内 存 区 的 指令 ， 还 有 在 栈 上 
操作 的 算术 、 逻 辑 和 移 位 指令 。 这 些 指 令 被 类 型 化 了 ， 故 有 诸如 整数 加 法 (adi) 和 实数 加 法 
(adr) 等 指令 ， 此 外 还 有 布尔 型 、 字 符 型 、 集 合 类 型 和 指针 类 型 。 大 多 数 加 载 和 存储 指令 (A 
栈 和 出 栈 ) 包含 一 个 操作 码 和 一 个 指示 操作 数 相 对 位 置 的 偏 移 。 算 术 、 逻 辑 和 移 位 指令 仅 由 一 
个 操作 码 构成 ; 它们 从 栈 中 弹出 操作 数 ， 热 行 操作 ， 再 将 结果 压 人 栈 中 。 下 面 是 一 个 将 1 加 到 一 
个 局 部 变量 上 的 代码 实例 。 这 个 变量 恰好 在 标志 栈 上 面 的 三 个 单元 。 因 为 这 个 变量 是 局 部 于 包 
含 这 个 代码 的 过 程 ， 所 以 它 处 在 相对 于 这 个 过 程 的 柳 套 深度 的 第 0 层 。 

lodi 0 3 // 从 当前 栈 帧 加 载 变量 (EREA 0) 

// 从 标志 栈 的 顶部 偏 移 3 

1dci 1 // 压 人 常数 1 

addi // 加 

stri 0 3 // 将 变量 存 回 当前 栈 幢 的 位 置 3 


5.1.3 P-code 总 结 
总 的 来 说 ，P-code V-ISA 是 相当 简单 的 ， 它 由 一 个 带 有 基本 操作 的 小 指令 集 和 一 个 简单 的 虚 
拟 机 实现 构成 。P-code 为 以 后 的 高 级 语言 虚拟 机 设置 了 标准 ， 包 括 Java 虚拟 机 ; 它 和 最 近 的 高 


级 语言 虚拟 机 有 如 下 的 共性 。 
。 它 使 用 了 一 个 栈 指令 集 ， 该 集合 仅 需 要 主机 平台 提供 最 小 数量 的 寄存 器 支持 ， 这 使 得 它 
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容易 转化 到 任何 主机 ISA, P-code 使 用 栈 指令 集体 系 结构 还 会 得 到 小 规模 的 “二 进 制 代 
码 ”。 当 许多 桌面 计算 机 硬 驱 动 较 小 (或 者 根本 没有 ) 并 且 仅 仅 支 持 64KB 的 主 存 时 ， 这 
种 小 规模 的 特性 是 尤其 重要 的 。 
它 的 内 存 被 划分 为 单元 ， 其 实现 细节 ， 如 每 个 单元 的 比特 数 ， 被 隐藏 于 ISA。 
主 存 被 划分 成 一 个 栈 和 一 个 堆 ， 它 们 的 范围 不 属于 结构 特征 。 此 外 ， 指 令 从 来 不 使 用 绝 
对 地 址 ， 这 人 允许 内 存 大 小 成 为 主机 平台 的 一 个 实现 特征 。 
通过 标准 库 与 操作 系统 交互 ， 这 至 少 在 理论 上 将 程序 与 底层 的 主机 操作 系统 隔离 。 然 而 
对 于 P-code， 实 现 操作 系统 无 关 往 往 是 将 它 的 标准 库 减 到 最 小 公共 子 集 ， 这 导致 了 相对 
弱 的 IO 能 力 。 在 现代 高 级 语言 虚拟 机 中 ， 为 了 维护 平台 无 关 ， 标 准 库 仍 是 一 个 非常 重 
要 的 考虑 或 问题 。 不 仅 有 最 小 公共 子 集 的 问题 ， 而 且 还 有 增加 库 “ 扩 展 ”的 诱惑 ， 这 就 
需要 与 平台 无 关 进 行 权衡 。 

P-code 虚拟 机 和 现代 高 级 语言 虚拟 机 之 间 的 主要 区 别 很 大 程度 上 是 由 支持 网 络 计算 环境 和 
面向 对 象 程序 范例 的 需要 而 引起 的 。 这 些 不 同 将 在 下 一 节 中 说 明 。 


5.2 面向 对 象 高 级 语言 虚拟 机 


P-code 虚拟 机 被 开发 作为 一 个 用 户 能 够 在 自己 的 本 机 上 编译 和 运行 程序 的 单机 环境 的 一 部 
分 。P-code 的 使 用 极 大 地 简化 了 Pascal 编译 器 到 一 个 给 定 主机 平台 的 移植 。 在 开发 出 P-code 仿 
真 器 之 后 ， 程 序 可 以 在 主机 平台 上 编译 和 运行 ， 并 且 可 以 信任 编译 器 能 提供 好 的 代码 。 这 种 方法 
已 经 被 证 明 是 有 效 的 ， 并 且 许 多 高 级 语言 编译 器 已 经 利用 底层 的 虚拟 机 支持 被 开发 出 来 。 

在 现代 网 络 计算 环境 下 ， 情 况 要 复杂 得 多 。 在 这 个 环境 下 ， 有 许多 互 连 的 平台 ， 其 中 混合 了 多 
种 处 理 器 结构 、 操 作 系 统 、 内 存 容量 、1/O 设备 等 等 。 在 这 个 环境 下 ， 将 很 难为 所 有 可 能 的 组 合 
(或 者 即使 是 那些 更 普遍 的 组 合 ) 编译 、 分 发 和 维护 软件 。 高 级 语言 虚拟 机 技术 的 应 用 能 够 极 大 地 
简化 这 个 任务 。 一 个 高 级 语言 虚拟 机 是 为 网 络 中 的 每 一 平台 开发 的 ， 并 且 任 何 被 编译 为 满足 虚拟 机 
规范 的 程序 都 可 以 被 发 送 到 网 络 中 任何 不 同类 型 的 平台 上 执行 。 在 这 种 应 用 环境 下 ， 高 级 语言 虚拟 
机 并 不 像 P-code 那样 主要 为 了 减轻 编译 器 的 移植 ， 然 而 ， 它 使 得 应 用 软件 能 平台 无 关 的 分 发 。 

在 现代 高 级 语言 虚拟 机 中 ， 通 过 对 数据 和 指令 包装 ， 平 台独 立 的 程度 也 会 超过 P-code 所 提 
供 的 。P-code 关注 的 是 平台 无 关 的 指令 集 方面 ， 而 数据 表示 相当 基本 ， 数 据 结 构 的 布局 被 隐 式 地 
编码 在 P-code 程序 自身 中 。 相 反 ， 流行 的 高 级 语言 虚拟 机 使 用 V-ISAs， 它 们 以 一 种 更 加 抽象 的 
方式 (通过 元 数据 ) 引用 数据 。 因 此 ， 数 据 结构 和 其 他 与 资源 相关 的 信息 被 被 编码 成 一 种 平台 
无 关 的 形式 ， 就 像 指 令 一 样 。 这 在 图 5-3 中 说 明 。 一 个 程序 文件 由 平台 无 关 的 代码 和 平台 无 关 的 
元 数据 构成 。 元 数据 描述 了 数据 结构 (典型 地 是 对 象 )、 它 们 的 属性 ， 以 及 它们 的 关系 。 如 图 所 
示 ， 虚 拟 机 软件 由 一 个 可 以 解释 代码 或 者 将 代码 翻译 成 本 地 码 的 仿真 引擎 构成 。 虚 拟 机 的 基础 
结构 也 包括 一 个 加 载 器 ， 它 能 将 元 数据 转换 为 内 部 的 依赖 于 机 器 的 数据 结构 ， 这 些 结构 考虑 了 
主机 平台 的 字 大 小 和 寻 址 特征 。 


虚拟 机 实现 
机 器 无 关 的 程序 文件 





代码 和 数据 的 转换 ; 实 线 指明 在 仿真 期 间 代 码 和 数据 的 移动 
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目前 ， 针 对 平台 无 关 的 网 络 计算 有 两 种 主要 的 高 级 语言 虚拟 机 正在 使 用 和 不 断 改进 一 一 Sun 
Microsystems Java 虚拟 机 (JVM) 和 微软 的 公共 语言 基础 结构 (CLI). JVM 和 CLI 都 包括 相同 
的 高 级 语言 虚拟 机 实现 的 基本 技术 ， 其 中 的 一 些 与 P-code 以 及 第 3 章 中 的 进程 虚拟 机 相似 。 现 
代 高 级 语言 虚拟 机 也 包括 许多 其 他 有 趣 的 和 相当 复杂 的 特征 。 除 了 支持 平台 无 关 的 软件 以 外 ， 
面向 网 络 的 高 级 语言 虚拟 机 还 包括 以 下 关键 性 质 。 

安全 和 保护 必须 能 够 从 不 被 信任 的 源 (包括 最 不 被 信任 的 源 之 一 ， 互 联网 ) 加 载 程序 ， 
然后 在 没有 权衡 本 地 系统 的 安全 性 的 情况 下 ， 作 为 用 户 进 程 的 一 部 分 在 本 地 执行 它们 。 一 个 用 
户 的 文件 和 其 他 本 地 的 硬件 资源 必须 是 安全 的 ， 而 不 致 从 网 络 上 下 载 的 任何 程序 的 影响 。 同 样 ， 
作为 安全 实现 的 一 个 要 素 ， 虚 拟 机 实现 软件 必须 受 应 用 软件 的 保护 ， 而 应 用 和 建 拟 机 软件 通常 
都 是 运行 于 主机 平台 上 的 同一 个 进程 的 一 部 分 。 这 就 好 比 每 个 客户 程序 在 它 自己 的 沙 盒 〈 即 一 
个 限制 它 运 行 的 环境 ) 内 被 执行 。 程 序 可 以 在 沙 盒 内 做 它 想 要 做 的 事 ， 但 是 不 能 干涉 沙 盒 外 面 
的 任何 资源 ， 除 非 给 出 显 式 的 许可 。 在 .NET 术 语 中 ， 一 个 沙 盒 中 的 客户 程序 被 称 为 受 管 制 的 代 
码 ， 因 为 它 的 执行 是 在 虚拟 机 运行 时 系统 的 管理 之 下 进行 的 。 这 种 管理 不 仅 包 括 安全 性 检查 ， 而 
且 包 括 一 些 其 他 功能 ， 如 自动 的 垃圾 收集 。 为 便于 描述 ， 我 们 将 使 用 术语 受 管制 的 代码 ， 以 把 它 
和 运行 在 沙 盒 外 面 的 不 受 管制 的 代码 区 别 开 来 。 显 而 易 见 ， 加 载 一 个 不 被 信任 的 应 用 并 且 在 一 
个 受 管制 的 、 安 全 的 方式 下 运行 它 ， 要 比 纯粹 的 平台 独立 有 更 大 的 挑战 。 

健壮 性 健壮 的 软件 的 优点 是 不 受 网 络 计 算 环 境 的 限制 ， 当 然 ， 当 处 理 平台 独立 的 网 络 
环境 的 复杂 性 时 ， 健 壮 的 软件 就 变 得 重要 了 。 为 了 开发 大 规模 软件 系统 ， 面 向 对 象 编程 模型 有 许 
多 优点 并 且 被 广泛 使 用 。 此 外 ， 对 象 模 型 非常 适合 分 布 式 计算 和 动态 链接 。 它 也 非常 适合 基于 组 
件 的 编程 ， 这 可 以 极 大 地 提高 程序 员 的 生产 力 。 因 此 ， 面 向 对 象 范例 已 经 成 为 当代 高 级 语言 虚拟 
机 选择 的 模型 。Java 和 CLI 都 被 设计 成 支持 面向 对 象 的 软件 。 其 他 对 健壮 性 有 重大 贡献 的 特征 包 
括 虚 拟 机 对 强 类 型 检查 和 垃圾 收集 的 支持 。 

网 络 一 一 在 某 些 环境 下 ， 可 用 的 网 络 硬件 可 能 仅仅 提供 有 限 的 带宽 。 这 种 限制 要 求 软件 节俭 高 
效 地 使 用 网 络 带宽 。 因 此 ， 应 用 软件 应 该 根据 需要 通过 动态 链接 被 渐 增 地 加 载 。 这 可 以 通过 仅 加 载 
要 使 用 的 软件 ， 在 时 间 上 分 捧 带 宽 的 使 用 ， 以 及 改善 程序 的 启动 时 间 来 节约 带宽 ， 因 为 第 一 个 程序 
一 被 加 载 就 可 以 开始 执行 。 使 用 密集 的 指令 集 编码 不 仅 对 减少 在 网 络 中 移动 程序 所 需 的 带宽 有 好 
处 ， 而 且 对 减少 在 本 地 平台 上 的 内 存 需 求 〈 这 也 会 在 某 些 应 用 中 受到 限制 ) 也 有 好 处 。 

性 能 一 一 当 提供 刚刚 列举 的 这 人 么 多 特性 外 ， 提 供 好 的 性 能 同样 是 有 用 的 。 通 常 ， 人 们 可 能 希 
望 辆 牲 某 些 性 能 毕竟 没有 什么 是 免费 的 一 但 是 一 个 好 的 高 级 语言 虚拟 机 应 该 是 给 用 户 提 
供 好 的 性 能 的 全 局 框架 的 一 部 分 。 为 了 实现 这 个 ， 在 第 2 章 到 第 4 章 中 描述 的 关于 传统 进程 虚拟 
机 的 许多 技术 都 可 以 使 用 。 另 外 ， 还 有 一 些 技术 是 特定 于 面向 对 象 的 网 络 环境 的 ， 或 者 是 在 应 用 
于 这 种 环境 时 会 更 有 利 。 

当 所 有 上 述 的 性 质 一 起 绑 定 到 一 个 单一 的 高 级 语言 虚拟 机 上 时 ， 就 难以 分 解 出 特定 的 虚拟 
机 属性 以 及 与 它们 相关 联 的 特定 性 质 。 高 级 语言 的 V-ISA 和 支持 虚拟 机 的 实现 已 经 变 得 相当 复 
杂 ; 并 且 已 有 许多 关于 JVM 和 CL 结构 和 实现 的 论文 和 厚 书 。 我 们 不 提供 这 个 层次 的 细节 ， 而 
是 理解 和 说 明 重 要 的 原理 和 技术 。 

在 随后 的 小 节 中 ， 我 们 讨论 用 于 支持 刚才 给 出 的 四 个 基本 特性 的 基本 技术 。 在 后 续 节 中 ， 我 
们 在 一 定 深度 上 描述 Java 虚拟 机 ， 因 为 它 在 概念 上 要 比 最 近 的 微软 CLI 简单 。 讨 论 完 JVM 后 ， 
进行 CLI 的 讨论 ， 重点 突出 与 JVM 的 不 同 。 

在 继续 讨论 之 前 ， 我 们 再 简要 讨论 一 下 结构 /实现 的 术语 。 首 先 ， 在 讨论 Java 虚拟 机 结构 和 
实现 时 有 一 些 歧义 ; 二 者 之 间 没 有 被 广泛 使 用 的 区 别 。 即 术语 Java 虚拟 机 可 以 被 用 作 功 能 规范 ， 
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如 类 文件 形式 、V-ISA 等 ， 而 同一 个 术语 被 经 常 应 用 于 特定 的 实现 。 通 常 ， 这 种 区 别 可 以 从 上 下 
文中 确定 。 当 有 任何 混淆 的 可 能 时 ， 我 们 将 在 Java 虚拟 机 上 增加 结 宰 或 实现 。 微 软 公 共 语 言 

础 是 一 个 结构 或 功能 规范 。 微 软 公共 语言 运行 时 (CLR) 是 一 个 由 微软 开发 的 CLI 的 特定 实现 。 
微软 的 共享 源 CLI， 不 论 这 个 名 字 ， 是 另 一 个 CLI 实 现 (共享 源 CLR 会 更 合适 ) 的 例子 。 有 时 ， 
只 讨论 虚拟 机 结构 的 指令 集 部 分 是 有 用 的 。 在 Java 的 情况 下 ， 它 通常 被 称 为 Java 字 节 码 ， 我 们 
将 会 看 到 指令 可 以 被 看 作 字 节 流 。CLI 的 指令 集 部 分 可 以 被 称 为 微软 中 间 语 言 (MSIL) 、 公 共 中 
间 语 言 (CL) 或 者 简称 为 IL, JVM 的 实现 和 一 组 标准 Java E (APIs) 的 组 合 被 称 为 Java + 
台 。 最 后 ，CLI 实 现 与 一 组 标准 库 一 起 ， 实 现 了 微软 . NET 框架 。 


5.2.1 安全 和 保护 


一 个 给 定 的 运行 在 本 地 平台 上 的 应 用 应 该 有 访问 某 些 在 本 地 系统 和 远程 系统 上 的 特定 文件 
(程序 和 数据 的 权限 。 同 时 ， 必 须 有 阻止 客户 应 用 访问 在 远程 和 本 地 系统 上 的 其 他 文件 的 能 
力 。 另 外 ， 还 应 当 保 护 运行 应 用 程序 的 虚拟 机 实现 软件 不 受 应 用 本 身 的 保护 ， 尽 管 两 者 都 是 作为 
同一 个 进程 的 一 部 分 运行 在 主机 平台 上 。 因 此 ， 必 须 提供 与 传统 操作 系统 所 支持 的 保护 类 型 不 
同 的 保护 类 型 。 在 传统 的 操作 系统 中 ， 用 户 彼 此 之 间 受 到 保护 ， 但 是 一 个 给 定 用 户 的 程序 可 以 访 
间 该 用 户 的 所 有 资源 。 在 高 级 语言 环境 下 ， 不 被 信任 的 程序 被 引入 到 用 户 域 中 ,但 是 在 这 个 用 户 
域 中 必须 严格 限制 其 访问 权 。 也 就 是 说 ， 客 户 程 序 受 到 管制 ， 它 只 能 够 在 它 的 保护 沙 盒 内 部 运 
行 。 在 诸如 Java 这 样 的 现代 高 级 语言 虚拟 机 中 ， 虚 拟 机 实现 提供 了 许多 操作 系统 “之 上 ”的 附 
加 保护 。 我 们 将 会 看 到 流行 的 高 级 语言 虚拟 机 的 一 个 基础 是 ， 高 级 语言 (如 Java 或 C#) 是 强 类 
型 化 的 ， 并 且 合 法 的 程序 必须 严格 定义 (对 对 象 的 ) 数据 访问 和 控制 流 的 作用 域 。 这 些 信 息 随 
后 通过 V-ISA 传达 给 虚拟 机 。 

安全 /保护 沙 盒 整体 上 有 三 个 主要 方面 。 第 一 个 是 获得 对 公共 数据 的 访问 权 ， 如 那些 存储 在 
远程 系统 中 的 文件 的 公共 数据 ， 而 阻止 访问 远程 系统 中 的 任何 其 他 数据 。 这 里 ， 我 们 把 定位 公共 
文件 作为 整个 进程 的 一 部 分 。 第 二 个 方面 是 本 地 文件 必须 有 相似 的 性 质 。 第 三 个 方面 是 必须 阻 
止 受 管制 的 应 用 在 沙 盒 之 外 访问 内 存 或 执行 代码 ， 即 便 它 与 虚拟 机 运行 时 软件 共享 进程 内 存 空 
间 。 为 了 简化 对 基本 原理 的 解释 ， 下 面 的 讨论 是 以 最 早 的 Java 沙 盒 模 型 为 基础 的 。 最 早 的 沙 盒 
是 相对 不 灵活 的 ， 并 且 主 要 针对 applet 一 一 通过 互联 网 访问 的 小 应 用 程序 ;， 它 保留 有 默认 的 安全 
模型 。 新 近 的 安全 模型 (在 Java 2 中 采用 ) 提供 了 更 大 的 灵活 性 ， 包 括 更 细 粒 度 的 访问 控制 和 
对 不 被 信任 代码 的 极 小 信赖 。 这 个 模型 将 在 6. 2 节 中 详细 讨论 。 

远程 文件 是 通过 一 致 的 命名 约定 来 查找 的 。 一 个 特定 的 约定 本 质 上 不 是 一 个 标准 的 一 部 分 ,但 
是 当前 大 多 数 的 操作 系统 ， 包 括 Linux 和 Windows， 使 用 基于 目录 的 分 层 文件 系统 。 因 此 ， 命 名 约 
定 通常 依赖 于 这 种 分 层 结构 。 此 外 ， 互 联网 连接 了 这 些 系 统 并 且 也 使 用 分 层 的 命名 系统 。 因 此 ， 作 
为 全 局 框架 〈 不 论 是 Java 平 台 还 是 . NET FESR) 的 一 部 分 ， 通 常 有 一 个 以 结合 互联 网 地 址 和 本 地 文 
件 结构 地 址 为 基础 的 命名 约定 。 例 如 ， 在 Java 平台 下 执行 一 个 特殊 的 方式 可 以 被 记 为 : 


edu. wisc. ece. jes. testpackage. shape. area 


它 是 把 互联 网 地 址 ece. wisc. edu 按照 相反 的 顺序 和 路 径 名 ~ jes/testpackage/shape/area 串联 得 到 
的 。 其 中 的 关键 是 一 个 本 地 系统 ， 对 于 给 定 的 一 个 遵循 约定 的 名 字 ， 必 须 能 够 找到 所 需 项 目的 在 
储 表示 。 

虽然 远程 系统 上 的 数据 可 能 是 整个 网 络 计算 框架 的 一 部 分 ， 但 保护 远程 系统 上 的 资源 实际 
上 不 是 运行 在 本 地 系统 上 的 高 级 语言 虚拟 机 的 责任 。 这 应 该 是 由 远程 系统 的 用 户 (M) 来 决定 
哪些 数据 文件 和 /或 目录 允许 在 网 络 中 访问 以 及 应 该 被 授予 哪些 权限 〈 读 或 写 ) 。 因 此 ， 即 使 本 
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地 系统 给 出 了 一 个 正确 路 径 ， 如 果 文 件 不 是 公开 可 访问 的 ， 那么 对 它 的 访问 尝试 将 被 拒绝 。 如 前 
所 述 ， 这 种 简单 的 保护 方式 只 是 Java 默认 的 。 通 过 使 用 安全 、 认 证 和 密码 系统 的 API， 可 以 建立 
起 一 个 更 加 灵活 的 安全 基础 结构 ， 并 且 能 被 高 级 语言 虚拟 机 平台 所 支持 ; 例如 ，Java 2 标准 版 平 
全 包含 许多 支持 基于 网 络 安全 的 API (Gong, Ellison 和 Dageforde 2003 ) 。 然 而 ， 这 种 虚拟 机 安 
全 涉及 到 许多 超出 本 书 范围 的 高 级 议题 ， 尽 管 在 下 一 章 会 有 一 些 额 外 的 讨论 。 


文 
类 文件 NT . 


网 络 文件 系统 t- 





图 5-4 Java 保护 沙 盒 的 组 件 


如 图 5-4 所 示 ， 一 个 Java 程序 由 许多 二 进 制 类 (在 . NET 术语 中 称 为 模块 ) 组 成 ， 这 些 二 进 
制 类 具有 标准 的 格式 ， 包 含有 平台 独立 代码 和 元 数据 。 这 些 二 进 制 类 可 以 被 保存 在 本 地 文件 系 
统 中 ,或 者 可 以 通过 网 络 被 访问 。 虚 拟 机 实现 包括 一 个 加 载 器 (或 者 一 组 加 载 器 ) ， 能 够 获得 一 
个 二 进 制 类 ， 并 验证 它 是 否 是 正确 的 ， 然 后 将 它 变 换 成 与 实现 相关 的 形式 ， 并 加 载 到 虚拟 机 的 内 
存 区 中 。 验 证 过 程 稍 后 将 详细 描述 。 一 个 加 载 器 是 被 信任 的 软件 ， 即 本 地 用 户 相信 它 能 正确 地 工 
作 并 且 是 安全 的 。 被 信任 的 加 载 器 可 以 由 用 户 , 或 者 更 可 能 地 由 受用 户 信任 的 软件 开发 者 提供 。 
二 进 制 类 定义 了 被 加 载 的 方法 和 由 方法 操作 的 对 象 类 型 。 

这 些 方 法 可 以 是 用 户 方法 ， 也 可 以 是 系统 方法 ， 其 中 还 可 能 有 本 地 方法 。 应 用 程序 包含 用 户 
方法 。 系 统 方法 属于 标准 库 ( API) ， 它 们 是 本 地 虚拟 机 实现 的 一 部 分 ， 并 且 经 常 按 受信 任 的 软 
件 来 处 理 。 


O Am, 严格 地 讲 ， 我 们 不 必 相 信用 Java 写 的 系统 方法 ; 我 们 可 以 像 验证 其 他 方法 一 样 验证 系统 方法 。 这 样 做 会 
提高 系统 完整 性 ， 但 也 会 减 慢 JVM 的 启动 时 间 ， 所 以 人 们 通常 不 这 么 做 。 
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顾名思义 ， 本 地 方法 按 本 地 二 进 制 代码 来 维护 。 本 地 方法 能 够 从 许多 高 级 语言 中 的 任何 一 
个 编译 而 来 ， 如 C 或 者 汇编 语言 。 它 们 对 于 与 遗留 代码 和 诸如 操作 系统 调用 的 底层 主机 平台 性 
质 相 交互 是 有 用 的 。 用 其 他 语言 编写 的 程序 也 可 以 利用 本 地 方法 来 使 用 用 Java 实现 的 丰富 的 API 
集 。 高 级 语言 方法 和 本 地 方法 可 以 通过 遵循 各 自 的 接口 约定 来 交互 ; Java 或 本 地 接口 (JNI) 为 
Java 定义 了 约定 。 本 地 方式 经 常 作为 被 信任 库 的 一 部 分 被 编 人 ， 但 是 用 户 也 可 以 编写 和 安装 本 地 
方法 (他 或 她 自己 要 冒 一 定 的 危险 ， 因 为 它们 不 会 受到 与 传统 方法 一 样 的 安全 检查 ) 。 

仿真 引擎 是 另 一 个 被 信任 的 组 件 ， 它 利用 类 似 于 第 2 到 第 4 章 所 描述 的 那些 技术 ， 来 仿真 包 
会 在 方法 中 的 V-ISA 代码 。 亦 即 ， 它 可 以 使 用 解释 或 者 执行 已 经 被 翻译 (编译) 成 的 本 地 指令 。 
如 果 一 个 受 管制 的 应 用 程序 需要 访问 一 个 本 地 文件 或 者 任何 其 他 本 地 资源 ， 它 只 能 通过 一 个 安 
全 管理 器 来 完成 ， 用 户 在 这 个 安全 管理 器 内 已 被 直接 或 间接 提供 许可 权限 〈 见 6. 2 节 ) 。 无 论 受 
管制 的 应 用 何 时 请 求 访问 本 地 文件 ， 如 这 个 请 求 是 通过 标准 库 中 的 一 个 方法 产生 的 。 该 标准 库 
方法 会 向 安全 管理 器 查阅 看 权限 是 否 应 被 授予 。 如 果 是 这 样 ， 就 可 以 继续 访问 文件 。 

受 管制 的 应 用 代码 包括 以 二 进 制 类 以 及 它们 所 包含 的 方法 的 形式 存在 的 软件 。 这 种 不 被 信 
任 的 应 用 软件 和 虚拟 机 软件 共享 同一 个 地 址 空间 ， 并 且 在 主机 系统 内 部 以 同样 的 特权 级 别 运 行 。 
因此 ， 在 执行 应 用 软件 时 必须 保护 虚拟 机 软件 不 受到 破坏 。 例 如 ,必须 禁止 任何 通过 应 用 程序 加 
载 和 存储 指令 对 虚拟 机 表 的 访问 。 类 似 地 ， 应 用 代码 应 该 不 允许 跳 转 到 虚拟 机 代码 的 任何 位 置 。 

静态 检查 和 运行 时 检查 相 结合 实现 了 地 址 空间 保护 。 当 仿真 引擎 执行 一 个 受 管制 的 客户 应 
用 时 ， 它 可 以 在 静态 OR) 代码 分 析 不 能 保证 安全 的 每 个 加 载 、 存 储 、 或 者 跳 转 指令 处 执 
行内 存 边界 检查 。 这 些 检查 确保 客户 仪 仅 访问 它 的 地 址 空间 部 分 ， 即 它 只 能 停留 在 沙 盒 内 部 。 当 
今 较为 流行 的 高 级 语言 虚拟 机 ， 包 括 JVM 和 CLI， 是 以 强 类 型 化 的 高 级 语言 为 目标 的 ， 并 且 很 
大 程度 上 依赖 于 对 保护 的 静态 (WRH) 检查 ， 而 具有 最 少 的 运行 时 检查 。 因 为 强 类 型 化 的 高 
级 语言 被 广泛 地 使 用 ， 所 以 我 们 对 它 极为 关注 。 相 反 ， 对 于 传统 的 二 进 制 代码 ， 像 通过 C 或 
C++ 所 产生 的 ， 静 态 二 进 制 代码 分 析 是 相当 有 限 的 ， 并 且 许 多 加 载 、 存 储 和 跳 转 将 需要 动态 运 
行 时 检查 。 有 一 种 极其 高 效 的 动态 检查 方式 的 实现 ， 它 采取 的 方法 是 把 所 有 的 访问 都 限制 在 预 
定义 的 、 容 易 检 查 的 客户 内 存 段 中 (Wahbe 等 1993)。 这 种 技术 实质 上 人 允许 用 任何 高 级 语言 来 产 
生 客户 程序 。 这 种 方法 在 Omniware 系统 中 被 采用 (Lucco，Sharp 和 Wahbe 1995) 。 

我 们 将 在 第 6 章 讨 论 Java 虚拟 机 实现 时 提供 更 多 的 细节 ,但 是 基本 的 检查 方式 是 首先 限制 
虚拟 的 JSA， 使 得 所 有 的 数据 结构 被 作为 元 数据 的 一 部 分 来 定义 ， 并且 所 有 的 内 存 访问 都 是 指向 
类 型 化 结构 的 固定 域 。 元 数据 当然 反映 了 定义 在 高 级 语言 程序 中 的 对 象 结构 。 类 似 地 ， 所 有 分 支 
指令 是 对 代码 区 域内 的 固定 偏 移 。 控 制 转移 中 的 间接 转移 仅仅 通过 显 式 的 调用 和 返回 指令 才 会 
有 。 在 如 载 过 程 中 ， 为 维护 关于 元 数据 规范 的 一 致 性 ， 要 检查 机 器 独立 的 代码 中 的 加 载 和 存储 指 
令 。 加 载 器 也 会 为 一 致 性 检查 所 有 的 控制 流 (分 支 和 跳 转 ) 指令 。 这 些 加 载 时 的 静态 检查 提供 
了 大 多 数 针 对 加 载 、 存 储 和 控制 转移 时 的 地 址 越界 保护 。 蜡 常用 于 那些 使 用 一 个 计算 出 来 的 索 
引 值 到 一 个 诸如 数组 的 数据 结构 中 取 值 。 这 些 访 问 在 运行 时 被 动态 检查 ， 同 时 进行 空 指针 (在 
Java 术 语 中 ， 实 际 为 引用 ) 访问 的 检查 。 

.总而言之 ,我们 了解 到 沙 盒 是 围绕 在 一 个 受 管制 的 执行 环境 周围 ， 它 由 许多 交互 的 组 件 构 
成 。 基 于 传统 的 保护 机 制 ， 远 程 系统 保护 自身 的 文件 和 其 他 资源 。 被 信任 的 库 积 安全 管理 器 保护 
在 本 地 机 器 上 的 文件 和 其 他 资源 。 最 后 ， 通 过 由 被 信任 的 加 载 器 执行 的 静态 检查 和 由 被 信任 的 
仿真 引擎 执行 的 动态 检查 相 结合 ， 从 而 保护 虚拟 机 运行 时 软件 不 会 被 不 被 信任 的 应 用 破坏 。 


5.2.2 健壮 性 一 一 面向 对 象 编程 
前 面 提 到 ， 两 个 最 广泛 使 用 的 高 级 语言 虚拟 机 都 是 基于 面向 对 象 模型 的 。 这 里 我 们 可 能 不 
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能 涵盖 面向 对 象 编程 的 所 有 方面 。 不 过 ， 我 们 可 以 提供 一 个 快速 的 简介 来 介绍 术语 并 使 下 面 的 
高 级 语言 虚拟 机 实现 的 讨论 更 容易 理解 。 

在 面向 对 象 编程 环境 中 ， 持 有 数据 的 实体 是 对 象 。 包 含 在 每 个 对 象 中 的 数据 只 能 通过 为 那 
个 对 象 类 型 定义 的 方法 或 程序 来 访问 和 操纵 。 一 个 类 定义 了 对 象 的 类 型 及 其 相关 的 方法 。 在 运 
行 时 ,对象 可 以 作为 类 的 一 个 实例 被 创建 。 本 质 上 ， 对 象 是 一 个 由 程序 员 定 义 的 复杂 数据 类 型 ， 
方法 是 专门 针对 所 定义 的 数据 类 型 的 。 对 象 只 能 通过 在 对 象 创建 时 产生 的 受挫 指针 或 引用 来 访 
问 。 在 Java 和 CLI 中 ， 数 组 被 作为 语言 的 一 部 分 而 定义 ， 实 质 上 是 一 个 内 在 形式 的 对 象 。 

一 个 对 象 的 数据 部 分 由 许多 域 组 成 。 这 些 域 可 以 是 单个 的 数据 元 素 ， 或 者 是 其 他 对 象 或 数 
组 引用 。 一 个 对 象 的 数据 部 分 可 以 是 静态 的 或 动态 的 。 如 果 是 静态 的 ， 那 么 只 创建 一 个 相关 数据 
的 副本 。 如 果 数 据 是 动态 的 ， 那 么 对 于 创建 的 每 个 对 象 都 会 产生 一 个 新 的 数据 副本 。 

通过 继承 ， 新 的 类 可 以 通过 扩展 一 个 已 存在 的 类 来 定义 。 一 个 派生 类 与 它 所 继承 的 基 类 有 
相同 的 成 员 (如 域 ) 。 当 一 个 类 被 扩展 时 ， 对 于 基 类 中 已 存在 的 方法 的 函数 可 以 通过 定义 一 个 有 
相同 名 字 和 签名 的 方法 来 重 写 。 一 个 方法 的 签名 是 它 的 参数 和 返回 值 类 型 的 一 个 有 序 链 列表 。 
这 个 新 的 重 写 的 方法 被 应 用 于 子 类 。 此 外 ， 一 个 子 类 可 以 有 其 他 的 在 基 类 中 不 存在 的 成 员 和 
方法 。 

继承 ,如 刚刚 描述 的 那样 ， 是 一 种 在 子 类 之 间 实 现 多 坊 的 方式 。 通 过 继承 和 多 态 ， 当 一 个 方 
法 被 调用 时 所 执行 的 精确 的 代码 依赖 于 作为 参数 给 出 的 对 象 的 特定 类 型 。 最 后 ， 一 个 接口 与 类 
相似 , 但 是 没有 相关 的 对 象 ; 它 只 包含 方法 签名 。 然 而 ， 如 果 一 个 类 (没有 相关 的 对 象 ) 实现 
了 一 个 接口 ， 那 么 由 接口 的 签名 所 确定 的 方法 在 这 个 类 的 对 象 上 操作 。 一 个 子 类 只 能 扩展 一 个 
K, 但 是 它 能 实现 多 个 接口 。 

调用 一 个 对 象 的 方法 经 常 被 比 作 “发 送 一 个 消息 ”到 这 个 对 象 ， 这 个 消息 指明 应 该 做 什么 
并 且 可 以 返回 一 个 响应 值 。 对 象 实现 的 实际 细节 ， 例 如 ， 它 在 内 存 中 的 布局 方式 是 隐藏 的 ， 并 且 
因此 而 依赖 于 实现 。 重 要 的 是 无 论 如 何 实现 ， 方 法 总 是 产生 同样 的 结果 。 

此 外 ， 还 有 一 些 方法 用 来 限制 对 象 被 程序 的 其 他 部 分 访问 的 作用 域 。 例 如 ,在 Java H, — 
个 类 可 以 被 声明 为 公有 的 (public) 、 私 有 的 (private) 、 或 者 受 保 护 的 (protected), MER 
明 一 个 对 象 在 一 个 给 定 对 象 库 之 外 的 可 见 性 〈 和 使 用 能 力 ) 。 公 有 和 私有 指定 差不多 是 不 解 自明 
的 : 如果 一 个 类 是 公有 的 ， 它 可 以 被 库 以 外 的 代码 使 用 ;如 果 它 是 私有 的 ， 它 只 能 被 同一 个 库 内 
部 的 其 他 类 使 用 。 除 了 可 以 访问 任何 继承 类 外 ， 受 保护 的 类 与 私有 的 类 没什么 区 别 。 

例子 

图 5-5 是 一 个 通过 两 个 方法 定义 了 一 个 矩形 类 的 Java 程序 ， 一 个 得 到 了 面积 ， 一 个 得 到 了 和 拢 
形 的 周 长 。 这 个 程序 还 将 拖 形 类 扩展 为 一 个 正方 形 类 。Square 类 用 一 个 有 些 简化 的 perimeter 方 
法 重 写 Rectangle 的 perimeter 方法 。 主 程序 从 命令 行 中 读 入 整数 对 。 这 些 整 数 表示 一 个 矩形 的 长 
和 宽 。 如 果 边 长 是 相同 的 ， 则 会 实例 化 为 一 个 Square 对 象 ; 否则 实例 化 为 一 个 Rectangle 对 象 。 
然后 以 Square 或 Rectangle 引用 作为 参数 ， 调 用 area 和 perimeter 方法 。 对 于 perimeter JA, RA 
使 用 的 是 哪 一 个 方法 ,依赖 于 引用 所 指向 的 对 象 类 型 ， 即 基体 的 perimeter 方法 是 在 运行 时 动态 
分 派 的 。 特 别 的 被 使 用 周 长 方 法 依赖 于 引用 所 指向 的 对 象 类 型 。 即 特定 的 周 长 方 法 是 在 运行 时 
动态 分 配 的 。 这 个 程序 无 可 否认 是 不 自然 的 一 一 sides 数组 有 点 多 余 一 一 但 是 在 这 个 小 例子 中 它 
允许 我 们 说 明 许多 JVM 的 特点 。 

垃圾 收集 

面向 对 象 模 型 的 优点 之 一 就 是 ， 从 程序 员 的 角度 ， 内 存 是 一 个 大 的 、 几 乎 无 边界 的 存放 对 象 
的 空间 。 对 象 实质 上 “漂浮 ”在 内 存 空间 中 ,通过 引用 将 它们 束缚 到 正在 执行 的 程序 。 对 象 可 
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以 被 动态 创建 ， 使 用 一 段 时 间 ， 然 后 通过 重 写 或 者 删除 对 这 个 对 象 的 所 有 引用 来 丢弃 它们 。 例 
如 ,在 图 5-5 给 出 的 代码 中 ， 当 一 个 引用 被 重新 赋值 到 一 个 新 的 Rectangle 或 Square， 前 一 个 Rec- 238 
tangle 或 Square 对 象 不 再 被 引用 从 而 变 成 垃圾 (garbage) - 


public class Shapes { 
public static void main (String args []) { 
Rectangle a; 
int length, width; 


for C int i = 0; i< 4; i+) { 
length = Integer.parseInt (args [2*i]); 
width = Integer.parseInt (args [2*i+1]); 
if Cength==width) 
a = new Square (length); 
else 
a = new Rectangle (length, width); 
System.out.printIn(a.area()); 
System.out.printIn(a.perimeter()); 
} 
} 
} 


class Rectangle { 
protected int sides []; 
public Rectangle (int length, int width) { 
sides = new int [2] ; 
sides [0] = length; 
sides [1] = width; 


public int perimeter ( ) { 
return 2*(sides(0] +sides [1]); 
} 


public int area ( ) { 
return (sides [0]*sides{1]); 


} 
class Square extends Rectangle { 


public Square (int length) { 
super Clength, length); 


public int perimeter ( ) { 
return 4*sides [0]; 





图 5-5 —MiB— AEA ee Aa KAY Java 程序 
这 个 无 界 内 存 空间 模型 从 程序 员 角度 看 的 确 很 不 错 ， 但 在 一 个 实际 实现 中 内 存 不 可 能 是 无 
界 的 。 因 此 ， 必 须 有 一 些 方式 来 重复 利用 由 不 再 需要 的 对 象 所 使 用 的 内 存 资源 。 在 某 些 面向 对 象 
语言 中 ， 例 如 C++ ， 和 希望 程序 员 显 式 地 释放 一 个 不 需要 的 对 象 ， 以 便 内存 管 理 软件 能 够 复 用 它 
的 内 存 。 然 而 这 给 程序 员 带 来 了 负担 ， 并 且 如 果 对 象 内 存 没 有 完全 释放 ， 无 用 的 对 象 数量 在 不 断 
增长 ， 直 到 处 理 器 的 内 存 资 源 被 耗 尽 ， 这 就 是 所 谓 的 “ 内存 汇 漏 ”。 另 一 方面 ， 如 果 一 个 程序 错 
误会 允许 同一 个 内 存 被 释放 两 次 〈 一 个 双 释 放 ) ， 那 么 就 产生 了 一 个 安全 漏洞 。 
为 了 避免 内 存 泄漏 和 双 释 放 错误 ， 以 及 增强 程序 的 健壮 性 ， 现 代 的 高 级 语言 虚拟 机 减轻 了 
程序 员 跟 踪 不 需要 的 垃圾 对 象 的 负担 。 特 别 地 ， 虚 拟 机 以 一 种 对 应 用 程序 透明 的 方式 来 自动 地 
收集 垃圾 。 虐 拟 机 实现 能 够 找到 那些 不 再 引用 的 对 象 并 且 帮 助 用 户 收 集 它们 。 程 序 员 无 须 负 责 
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将 无 用 的 对 象 显 式 地 归还 给 内 存 管理 软件 ， 从 而 消除 了 由 程序 员 管 理 内 存 而 造成 错误 的 可 能 性 。 


5.2.3 网 络 


在 网 络 计算 环境 下 ， 网 络 带 宽 有 时 是 一 个 受 限制 的 资源 。 在 一 个 高 级 语言 虚拟 机 中 至 少 有 
两 种 降低 网 络 带宽 使 用 的 方法 。 第 一 个 是 通过 减少 必须 在 网 络 中 移动 的 程序 的 大 小 〈 或 者 动态 
链接 库 例 程 ) 。 这 导致 程序 以 一 种 密集 的 方式 编码 〈 即 指令 集 ) 。 最 关键 的 是 通过 一 个 执行 仿真 
的 虚拟 机 ， 网 络 中 传输 的 信息 是 一 个 要 被 执行 的 程序 的 规格 说 明 ， 而 不 必 是 将 最 终 被 执行 的 实 
际 指令 。 虚 拟 机 的 翻译 部 件 会 将 规格 说 明 转化 成 实际 的 本 地 指令 一 一 解释 部 件 也 可 完成 相同 的 
功能 ， 但 是 要 低 效 得 多 。 

使 用 面向 栈 的 、 具 有 变 长 指令 的 指令 集会 导致 程序 规范 相当 紧 致 ， 尤 其 是 当 它 与 典型 的 
RISC ISA 中 使 用 的 相对 稀 玻 的 编码 相 比较 时 。 在 RISC ISA 中 ,使 用 了 许多 寄存 器 和 固定 长 度 的 
指令 。 有 了 操作 数 栈 ， 一 条 指令 仅仅 需要 一 个 字 节 是 常见 的 ， 即 用 该 字 节 来 指定 操作 码 RER 
则 通过 它们 在 栈 中 的 位 置 指明 。 

尽管 在 大 多 数 高 级 语言 虚拟 机 中 使 用 的 栈 指令 集 可 以 节省 一 些 网 络 带 宽 ， 但 是 附加 的 元 数 
据 也 增加 了 网 络 带宽 需求 。 总 体 上 ， 能 够 〈 最 大 限度 地 ) 适度 节约 网 络 带宽 。 不 过 ， 如 前 所 述 ， 
元 数据 的 存在 会 带 来 一 些 传 统 二 进 制 程序 所 没有 提供 的 额外 好 处 。 动 态 加 载 程序 〈 类 ) 文件 可 
以 更 大 地 节约 网 络 带宽 。 亦 即 ， 一 个 虚拟 机 实现 通常 仅仅 加 载 它 所 需要 的 二 进 制 类 ， 从 而 不 会 将 
网 络 带宽 浪费 在 从 不 被 使 用 的 二 进 制 类 上 。 


5.2.4 性 能 


当 与 像 C 这 样 的 语言 比较 时 ， 面 向 对 象 语言 有 许多 重要 的 优点 ，C 实际 上 只 比 汇编 语言 高 
一 级 。 不 过 ， 面 向 对 象 模型 难以 在 传统 硬件 上 获得 高 性 能 。 因 此 ， 对 许多 〈 但 不 是 全 部 ) 应 用 
来 说 ， 都 非常 强调 提高 高 级 语言 虚拟 机 的 性 能 。 在 第 2 ~4 章 中 描述 的 大 多 数 仿真 技术 可 以 被 用 
来 增强 高 级 语言 虚拟 机 的 性 能 。 高 级 语言 虚拟 机 实现 的 执行 引擎 可 以 使 用 解释 执行 、 二 进 制 翻 
译 到 本 地 代码 ， 或 者 两 者 相 结合 。 

Java 指令 集 是 为 了 简单 地 解释 而 设计 的 ， 而 微软 的 中 间 语 言 (MSIL) 则 不 打算 采用 解释 的 
方式 〈 不 过 它 是 可 以 的 ， 虽 然 很 慢 ) Java 指令 集 和 MSIL 都 使 用 相当 有 限 的 、 定 义 明 确 的 控制 
流 指令 (分 支 和 方法 调用 ) ， 因 此 代码 发 现 问 题 是 非常 简单 的 。 只 要 一 进 和 一 个 方法 ， 所 有 属于 
这 个 方法 的 代码 就 可 以 被 立即 发 现 。 这 样 就 可 以 使 用 即时 (JIT) 编译 ,一 个 方法 在 第 一 次 进入 
时 会 被 全 部 编译 >。JIT 编译 常会 产生 未 优化 的 或 者 略微 优化 的 代码 。 除 了 解释 和 JIT 编译 这 两 个 
基本 方法 之 外 ， 还 有 一 系列 更 加 高 级 的 分 阶段 仿真 策略 。 例 如 ， 一 个 实现 可 以 从 解释 开始 ， 在 这 
期 间 获取 profile 信息 ， 然 后 编译 被 频繁 调用 的 方法 〈 即 热 方法 ) 或 者 方法 的 片段 。 最 后 ， 这 些 
频繁 调用 的 被 编译 的 方法 可 以 被 高 度 地 优化 。6. 6 节 将 进一步 讨论 更 高 性 能 的 高 级 语言 虚拟 机 实 
现 技术 。 


5.3 Java 虚拟 机 结构 


为 了 更 加 详细 地 了 解 高 级 语言 虚拟 机 ， 我 们 重点 介绍 Java 虚拟 机 (IVM) (Lindholm 和 
Yellin 1999) 上 。JVM 在 微软 的 CLI 之 前 出 现 ， 并 且 在 某 种 意义 上 是 一 个 更 加 纯粹 的 高 级 语言 
拟 机 。 另 一 方面 ，CLI 是 更 通用 的 . NET 框架 的 一 部 分 ， 其 中 受 管制 的 和 不 受 管制 的 应 用 都 可 以 
容易 地 互 操作 ， 只 要 用 户 愿意 。 在 本 节 的 Java 虚拟 机 讨论 之 后 ， 我 们 将 在 下 一 节 中 纵览 CLI。 





O “在 高 级 语言 虚拟 机 环境 中 ， 翻 译 ( “translation”) 通常 说 成 编译 ( “compilation”) 。 
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5.3.1 数据 类 型 


Java 是 由 简单 的 数据 类 型 和 引用 ， 连 同 由 简单 类 型 和 引用 组 成 的 对 象 一 起 构成 的 。 

简单 的 数据 类 型 

Java 高 级 语言 虚拟 机 支持 许多 简单 数据 类 型 ， 对 象 就 是 由 它们 组 成 的 。 这 些 类 型 是 int ( 
数 ) char, byte, short, float, double 和 returnAddress。 一 个 boolean 值 在 Java 虚拟 机 中 是 按 简单 
类 型 int 或 byte 来 实现 的 。 注 意 ， 简 单 类 型 是 根据 它们 所 能 接受 的 值 来 定义 的 ， 而 不 需要 显 式 指 
定 实际 所 占 的 存储 位 数 。 例 如 ， 一 个 整 型 数据 类 型 被 定义 为 -2 ”到 +2” -1 范围 内 的 任何 整数 。 
这 人 允许 简单 类 型 以 一 种 依赖 于 实现 的 方式 保存 在 任何 给 定 的 主机 平台 上 。 当 然 ， 许 多 实现 会 用 
32 位 字 和 2 进 制 补 码 来 表示 整数 ， 但 是 其 他 实现 可 以 使 用 更 多 的 存储 位 和 /或 其 他 表示 。 顺 便 提 
一 下 ，retumAddress 类 型 是 一 个 相当 含糊 的 类 型 ， 它 不 存在 于 Java 高 级 语言 中 , 但 是 存在 于 
JavalSA 中 。 它 被 由 jsr 和 ret 指令 〈 这 些 通常 用 来 实现 Java 高 级 语言 的 finaly 子 句 ， 在 此 不 进 一 
步 讨论 它们 ) 实现 的 “微型 子 例 程 ” 使 用 。 

引用 

除了 前 述 的 简单 类 型 ，JVM 包括 了 一 个 reference 类 型 ， 它 可 以 保存 引用 值 。 一 个 引用 值 指 
向 一 个 存储 在 内 存 中 的 对 象 ( 接 下 来 讨论 )。 引 用 也 可 以 有 一 个 null (未 定义 的 ) 值 ， 如 果 它 没 
有 被 分 配 。 和 简单 类 型 的 情况 一 样 ， 引 用 有 一 个 依赖 于 实现 的 内 在 表示 ，Java ISA 并 不 定义 引用 
所 占 的 位 数 。 

对 象 和 数组 

如 前 所 述 ， 对 象 持 有 在 由 程序 员 声 明 的 逻辑 结构 中 所 具有 的 数据 。 同 样 的 ， 对 象 是 由 简单 数 
据 类 型 和 可 能 指向 其 他 对 象 的 引用 构成 。 一 个 数组 对 象 是 一 个 特殊 的 、 内 部 对 象 类 型 ， 具 有 显 式 
的 指令 集 支 持 。 每 个 数组 在 它 被 声明 时 ， 被 定义 为 有 固定 的 元 素数 目 ， 并 且 在 程序 执行 过 程 中 并 
不 改变 。 数 组 元 素 必须 都 是 相同 的 简单 类 型 或 者 都 是 引用 。 如 果 是 引用 ， 那 么 它们 必须 都 指向 相 
同类 型 的 对 和 象 。 一 维 数组 是 基本 的 形式 , 但 是 可 以 使 用 数组 引用 来 建立 多 维 数组 。 


5. 3.2 数据 存储 


在 JVM 中 ， 有 三 种 普通 的 数据 存储 类 型 -全 局 的 、 局 部 的 和 操作 数 。 全 局 存储 是 主 存 ， 
用 于 存储 全 局 声明 的 变量 。 局 部 存储 是 对 局 部 于 方法 的 变量 的 临时 存储 。 操 作 数 存储 保存 正 被 
功能 指令 (WOR, BE, BRL) 操作 的 变量 。 所 有 的 存储 被 分 成 单 
元 或 存储 槽 ， 而 一 个 单元 或 存储 槽 通常 能 够 保存 一 个 单独 的 数据 项 
(例外 是 双 精度 浮 点 数 和 长 整数 ， 它 们 要 消耗 两 个 存储 槽 ) 。 单 元 或 
位 置 实际 需要 的 空间 数量 是 与 实现 相关 的 ， 但 是 所 有 的 寻 址 都 是 按 
逻辑 存储 单元 进行 的 。 

re 

局 部 和 操作 数 存储 在 栈 中 分 配 ， 而 过 程 的 参数 也 在 栈 中 被 传 
递 。 指 令 从 来 不 能 将 数组 和 对 象 放 在 栈 中 ， 只 有 引用 和 单个 数组 元 
素 可 以 被 放 在 栈 中 。 当 每 次 调用 一 个 方法 时 ， 会 分 配 一 个 栈 帧 (图 
5-6) ， 并 将 参数 、 局 部 存储 和 操作 数 存储 依次 分 配 到 栈 帧 中 。 一 个 
给 定 方法 的 局 部 存储 所 需要 的 空间 大 小 是 固定 的 ， 局 部 存储 所 需要 
的 栈 空间 可 以 在 编译 时 确定 。 如 前 所 述 ， 栈 在 存储 槽 中 保存 数据 。 
在 许多 传统 的 ISA 中 ， 操 作 数 存储 是 一 个 寄存 器 文件 ; 但 是 和 了 P- 图 5-6 Java 栈 结构 
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code 一 样 ，Java 字 节 码 和 MSIL 都 使 用 栈 来 保存 操作 数 。 栈 有 利于 指令 集 的 编码 密度 (不 需要 指 
令 域 来 指明 寄存 器 ) ， 也 有 利于 平台 独立 性 的 实现 《主机 平台 在 它 的 ISA 中 可 以 有 任何 数量 的 寄 
存 器 ) ， 当 然 ， 有 利 的 程度 对 于 不 同 的 指令 序列 会 有 所 不 同 。 

全 局 内 存 

Java 中 的 逻辑 内 存 结构 包含 一 个 用 来 保存 代码 的 方法 区 和 一 个 用 来 保存 数组 和 对 象 的 全 局 
存储 区 。 对 于 JVM 结构 来 说 ， 全 局 内 存 区 被 作为 一 个 未 指明 大 小 的 堆 来 管理 ， 也 就 是 说 它 的 大 
小 依赖 于 实现 。 堆 可 以 保存 静态 和 动态 的 对 象 ， 包 括 数组 ， 它 们 是 在 运行 时 被 创建 在 堆 中 。 当 一 
个 对 象 被 动态 创建 在 堆 中 时 ， 就 会 产生 一 个 指向 它 的 引用 。 在 堆 中 的 对 象 只 能 通过 与 这 个 对 象 
的 类 型 相 匹配 的 引用 来 访问 。 例 如 在 图 5-5 中 ， 引 用 a 被 声明 为 Rectangle 类 型 ， 而 它 只 能 被 用 来 
指向 Rectangle 类 型 (或 者 Rectangle 的 一 个 子 类 ) 的 对 象 。 

常量 池 

指令 会 经 常 使 用 常量 值 ， 例 如 ， 充 当 整 型 操作 数 或 者 是 局 部 内 存 的 地 址 。ISA 允许 一 些 常量 值 
作为 立即 操作 数 被 放 入 指令 流 中 。 但 是 通常 常量 有 一 个 长 度 范围 ， 并 且 它 们 中 的 一 些 被 许多 不 同 的 
指令 使 用 。 因 此 为 了 使 Java ISA 更 加 紧 致 和 统一 ， 与 一 个 程序 相关 联 的 常量 数据 被 放置 在 一 个 被 
称 为 常量 池 的 块 中 。 任 何 需 要 常量 值 的 指令 就 可 以 用 一 个 索引 值 到 常量 池 中 取得 所 需要 的 常量 。 
注意 ， 尽 管 ISA 没有 定义 整数 和 引用 在 全 局 内 存 或 栈 中 存储 时 的 精确 表示 ， 但 定义 了 它们 在 党 
量 池 中 存储 时 的 表示 。 例 如 ， 一 个 在 常量 池 中 的 整数 表示 成 一 个 32 位 2 进 制 补 码 。 常 量 池 是 程 
序 规范 的 一 部 分 ， 就 像 实际 指 令 一 样 ， 而 且 它 不 随 程序 的 执行 而 改变 ， 牢 记 这 一 点 非常 重要 。 

存储 层次 

图 5-7 说 明了 Java 中 的 存储 层次 。 在 这 幅 图 中 ， 一 个 数组 已 经 在 堆 中 被 分 配 ， 另 一 个 对 象 中 
包含 了 一 个 对 数组 的 引用 。 再 看 图 的 左下 角 ， 是 一 个 未 被 引用 的 对 象 ， 这 是 一 个 准备 被 垃圾 收集 
的 对 象 。 一 个 被 引用 对 象 的 一 个 特定 域 是 通过 在 常量 池 中 的 一 个 偏 移 量 来 访问 的 。 亦 即 ， 当 确定 
一 个 域 时 ， 不 需要 通过 引用 本 身 来 间接 访问 ， 而 直接 通过 偏 移 量 直接 访问 。 


ro 





| 
| A 
| 


图 5-7 Java 程序 所 使 用 的 存储 层次 
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5.3.3 Java 指令 集 


Java 指令 集体 系 结构 是 基于 栈 的 ， 并 且 至 少 在 表面 上 类 似 于 P-code 中 所 使 用 的 ISA. 
指令 格式 
所 有 的 指令 包含 一 个 操作 码 字 节 和 有 零 个 或 多 个 后 续 字 节 ， 这 取决 于 操作 码 。 图 5-8 说 明了 党 
见 的 指令 格式 。 每 个 指令 域 由 一 个 字 节 构成 ， 尽 管 两 个 或 更 多 这 样 的 字 节 域 可 以 连接 起 来 形成 
一 个 操作 数 。 许 多 指令 是 单字 节 的 ， 即 只 有 操作 码 ， 如 图 5-8a 所 示 。 某 些 指令 有 一 个 操作 码 和 
一 个 或 更 多 的 索引 字 节 构成 ， 图 5-8b 和 是 两 个 例子 。 索 引 字 a 
节 用 作 常量 池 或 者 局 部 存储 位 置 的 索引 。 另 外 一 类 指令 格式 由 一 
个 操作 码 和 一 个 或 更 多 的 数据 字 节 构 成 (图 5-8d Ale) 。 数 据 字 节 b) opcode] index 
可 以 是 立即 数 或 者 是 与 PC 相关 的 分 支 指令 的 偏 移 量 。 由 于 指令 是 


以 字 节 流 的 形式 而 出 现 的 一 一 操作 码 、 索 引 、 或 者 数据 一 一 这 类 gy 





指令 集 常 被 称 为 字 节 码 指令 集 或 者 简称 为 字 节 码 。 使 用 单字 节 的 
操作 码 意味 着 总 共有 不 超过 256 种 操作 码 ; 但 是 一 个 特殊 的 宽 操 作 gy [opcode] data | 
码 当 被 追加 到 常规 操作 码 后 时 ， 实 质 上 是 创建 了 一 个 和 常规 操作 
码 执行 相同 操作 但 是 具有 额外 索引 字 节 的 新 指令 。 而 一 个 字 节 码 6) [opcode[ datal 
指令 集 总 是 可 以 通过 添加 “ 转 义 代码 ” 字 节 来 扩展 ， 它 与 当 所 有 Cpcode datat | dataz 
操作 码 用 完 时 被 用 来 扩展 传统 指令 集 的 相 类 似 。 图 5-8 ”上 典型 的 字 节 码 指令 格式 

Java 指令 集 的 一 个 基本 性 质 是 每 个 简单 类 型 有 能 够 操作 它们 的 特定 字 节 码 指令 。 例 如 ，iadd 
操作 码 (整数 加 法 ) 被 定义 为 只 能 在 栈 中 的 整 型 数 上 操作 。 在 一 个 合法 的 Java 字 节 码 程序 中 ， 
操作 数 的 类 型 必须 与 操作 码 所 需要 的 相 匹配 。 在 下 面 的 指令 描述 中 ， 我 们 使 用 整数 形式 的 指令 
作为 例子 ，ISA 为 其 他 原始 类 型 定义 相似 的 指令 。 

后 面 的 各 小 节 将 纵览 不 同 的 指令 类 型 。 一 个 完整 的 指令 列表 可 以 在 一 本 介绍 Java 虚拟 机 的 
书 (如 ，Lindholm 和 Yellin 1999; Venners 1998) 中 找到 。 指 令 描 述 包括 指令 格式 (首先 是 操作 
码 ) ， 接 下 来 是 可 选 的 操作 数字 节 。 所 有 操作 数 都 以 字 节 为 单位 来 表示 ， 即 使 只 有 连接 起 来 时 才 
有 意义 。 例 如 ， 一 个 16 位 数据 项 被 表示 为 两 个 字 节 : datal 和 data2, 

数据 移动 指令 

图 5-9 说 明了 数据 移动 的 基本 流动 方式 。 所 有 从 全 局 或 局 部 内 存 的 加 载 和 存储 操作 都 必须 通 
过 操作 数 栈 来 完成 ， 并 且 所 有 的 功能 指令 都 对 保存 于 栈 中 的 操作 数 进行 操作 。 





指令 流 









图 $-9 Java ISA 支持 的 数据 移动 
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一 组 数据 移动 指令 将 常量 值 压 人 栈 中 。 在 这 些 栈 指 令 中 有 一 些 元 余 ， 即 某 些 常 量 可 以 通过 


不 只 一 种 类 型 的 指令 来 压 人 栈 中 。 例 如 ， 可 以 用 五 条 不 同 的 指令 将 常数 1 压 人 栈 中 。 这 种 元 余 的 
247 
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好 处 是 能 够 提高 代码 密度 和 /或 者 解释 的 速度 。 最 常见 的 常量 (如 小 整数 ) 有 自己 的 操作 码 ， 因 
此 一 个 字 节 的 指令 就 足够 了 。 例 如 ，iconstl 是 一 个 将 整数 常数 1 压 人 栈 的 单字 节 指 令 。 其 他 短 常 
量 可 以 通过 bipush data 或 者 sipush datal data2 指令 来 压 人 一 一 这 两 条 指令 分 别 需 要 两 个 或 三 个 指 
令 字 节 。 任 何 任意 的 常量 可 以 通过 lde index 指令 (总 共 两 个 字 节 ) 来 压 人 ， 假 设 它 在 常量 池 中 
的 前 256 个 存储 槽 之 一 。( 当然 ， 常 量 池 人口 本 身 包含 额外 的 数据 字 节 。) 最 后 ，ldc_w index! in- 
dex2 指令 使 用 三 个 字 节 并 且 能 够 从 常量 池 中 任何 16K 的 存储 槽 上 加 载 一 个 常数 。ldc 指令 和 人 栈 
指令 之 间 的 主要 区 别 是 当 执 行 解 释 时 ， 前 者 需要 经 过 一 级 间接 访问 。 如 果 使 用 翻译 (编译) 
代码 ， 两 种 类 型 的 指令 之 间 就 没有 实际 的 区 别 了 。 

第 二 组 数据 移动 指令 操纵 栈 中 的 项 。 例 如 ，pop 指令 从 栈 中 弹出 栈 顶 元 素 并 丢弃 它 。swap 指 
令 交换 栈 顶 两 个 元 素 的 位 置 ， 而 dup 复制 栈 顶 元 素 以 形成 栈 顶 的 两 个 元 素 。 

第 三 组 数据 移动 指令 用 于 在 当前 栈 桢 的 局 部 存储 区 和 操作 数 栈 之 间 移 动 数值 。 这 些 指令 通 
过 一 个 常量 指定 局 部 存储 地 址 ， 这 个 常量 可 以 在 指令 中 直接 给 出 ， 也 可 以 通过 一 个 索引 到 常量 
池 中 获取 。 同 样 ， 被 移动 的 数据 类 型 是 在 操作 码 中 显 式 给 出 的 。 当 程序 一 开始 被 加 载 时 ， 这 个 信 
息 被 用 来 做 类 型 检查 ( 稍 后 讨论 )。 例 如 ，iload_1 指令 从 局 部 存储 槽 1 中 取出 一 个 整数 并 且 将 它 
压 人 栈 中 。itoad index 指令 通过 由 index 指定 的 常量 池 条 目 来 确定 局 部 存储 的 横 号 。 类 似 地 ，is- 
tore_1 和 istore index 指令 从 栈 中 向 当前 栈 桢 的 局 部 存储 移动 数据 。 

最 后 一 组 数据 移动 指令 处 理 全 局 内 存 数据 ， 可 以 是 对 象 或 者 数组 。 一 个 对 象 通过 new indexl 
index2 指令 来 创建 ， 其 中 常量 池 的 索引 是 由 indexl 和 index2 两 个 字 节 连 接 起 来 形成 的 。 常 量 池 
条 目 实质 上 在 说 明 这 个 对 象 ， 根 据 这 个 描述 ， 在 堆 中 创建 并 初始 化 该 对 象 的 一 个 新 的 实例 。 接 
着 ,该 对 象 的 引用 被 压 人 栈 中 。 类 似 地 ，newarray type 指令 创建 一 个 包含 元 素 类 型 为 指定 的 简单 
类 型 的 数组 。 

为 了 访问 对 象 中 的 数据 ， 主 要 的 数据 移动 指令 是 getfield indexl index2 和 putfield index! in- 
dex2 指令 ， 它 们 指向 包含 关于 域 的 信息 的 一 个 常量 域 条 目 ， 如 它 的 类 型 、 大 小 和 它 在 包含 它 的 
对 象 中 的 偏 移 。 和 所 有 的 数据 移动 指令 一 样 ， 这 些 指令 在 被 编 址 的 数据 项 和 操作 数 栈 之 间 移 动 
数据 。getstatic 和 putstatic 指令 除了 它们 用 于 处 理 静 态 而 不 是 动态 对 象 之 外 ， 其 他 的 都 完全 相似 。 
还 有 一 些 类 似 的 指令 用 于 将 数据 移 人 或 移出 数组 。 

除了 创建 和 访问 对 象 和 数据 的 指令 外 ， 还 有 一 些 指 令 可 以 执行 运行 时 检查 ， 来 确定 一 个 引 
用 指向 的 对 象 是 什么 类 型 的 。 例 如 ，checkcast index! index2 指令 检索 常量 池 以 找 出 特定 类 型 或 接 
口 的 规范 ;然后 检查 由 栈 顶 的 一 个 引用 指向 的 对 象 是 否 是 常量 池 条 目 所 指 类 型 的 一 个 实例 ， 如 
果 不 是 ， 就 产生 一 个 CheckCastException 异常 。 这 条 指令 用 来 检查 一 个 运行 时 强制 类 型 转换 (对 
象 引用 的 变换 ) 是 否 是 安全 的 〈 如 ， 正 被 强制 转换 的 引用 是 指向 同一 个 类 的 成 员 或 者 是 当前 指 
向 的 对 象 的 一 个 子 类 ) 。 这 条 指令 允许 一 个 程序 测试 潜在 的 不 安全 强制 转换 ， 并 且 在 合理 的 方式 
下 通过 异常 机 制 来 处 理 它 〈 稍 后 描述 ) 。 

类 型 转换 

某 些 指令 将 栈 中 数据 项 的 一 种 类 型 转化 为 另 一 种 。 转 换 指 令 的 一 个 例子 是 2f， 它 从 栈 中 弹 
出 一 个 整数 ， 将 它 转化 为 浮 点 数 ， 再 将 这 个 浮 点 数 压 回 栈 中 。 然 而 ， 并 不 是 每 个 可 能 的 简单 类 型 
都 被 转换 指令 直接 支持 。 在 某 些 情况 下 ， 实 现 一 个 转换 需要 某 对 指令 的 组 合 。 

功能 指令 : BAR, BM. Bi 

许多 指令 获取 输入 操作 数 ， 对 它们 进行 操作 ， 并 且 产 生 一 个 结果 。 在 大 多 数 情况 ， 这 些 指 令 
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由 单个 字 节 构成 。 操 作 数 总 是 从 栈 中 取出 而 结果 被 放 人 栈 中 。 下 面 是 三 个 例子 。iadd 指令 从 栈 中 
弹出 两 个 整数 ， 将 它们 相 加 ， 再 将 和 压 人 栈 中 。iand 指令 从 栈 中 弹出 两 个 整数 ， 对 它们 进行 逻辑 
AND ， 再 将 结果 压 人 栈 中 。ishfl 指令 从 栈 中 弹出 两 个 整数 ， 将 先 出 栈 的 元 素 向 左 移动 由 第 二 个 
元 素 指定 的 数量 ， 再 将 结果 压 人 栈 中 。 

因为 内 部 表示 是 依赖 于 实现 的 ， 严 格 地 说 ， 移 位 和 逻辑 指令 所 作 的 是 在 执行 操作 前 将 整数 
值 转化 为 一 个 标准 的 二 进 制 补 码 形式 ， 然 后 在 将 它 压 人 栈 之 前 转换 回 内 部 表示 ， 如 逻辑 和 移 位 
操作 好 像 数 值 是 以 32 位 二 进 制 补 码 形式 存储 ， 而 不 管 它们 实际 上 是 否 以 那 种 方式 存储 。 

控制 流 指令 

控制 流 指令 (如 分 支 和 跳 转 ) 用 来 揭示 一 个 方法 内 的 所 有 控制 流 路 径 。 这 个 性 质 使 得 在 第 
一 次 进入 一 个 方法 时 能 完全 发 现 方法 内 的 所 有 代码 ， 并 且 能 在 加 载 时 跟踪 保存 在 局 部 存储 中 的 
所 有 变量 类 型 。 

一 组 条 件 分 支 将 栈 顶 元 素 与 零 比 较 。 例 如 ，ifeq datal data2 指令 从 栈 中 弹出 一 个 整数 并 且 将 
它 与 零 比较 。 如 果 等 于 零 ， 则 跳 转 到 一 条 由 PC 指定 的 指令 ， 这 个 PC 是 把 两 个 数据 字 节 连接 起 
来 得 到 的 相对 偏 移 量 。 另 外 一 些 条 件 分 支 指令 比较 两 个 数据 项 。 例 如 ，if_icmpeq datal data2 指 
令 从 栈 中 弹出 两 个 整数 并 且 将 第 一 个 与 第 二 个 相 比较 。 如 果 它 们 相等 ， 便 跳 转 到 一 条 由 PC 指定 
的 指令 ， 这 个 PC 同样 是 把 两 个 数据 字 节 连接 起 来 得 到 的 相对 偏 移 量 。 最 后 ， 还 有 一 些 条 件 分 支 
来 检查 空 / 非 空 的 引用 。 例 如 ，ifnull datal data2 从 栈 中 弹出 一 个 引用 ， 并 且 检 查 它 们 是 否 为 空 。 

也 有 一 些 更 加 复杂 的 控制 流 指令 。 这 里 给 出 的 lookupswitch 指令 通常 被 用 来 实现 一 条 switch 语句 : 

lookupswitch defaultl default2 default3 default4 

npairsi npairs2 npairs3 npairs4 

match1_1 match1_2 match1_3 match1_4 

offseti_1 offsetl 2 offset1_3 offsetl 4 
match2_1 match2_2 match2_3 match2_4 
offset2_1 offset2_2 offset2_3 offset2_4 
additional n-2 match/offset pairs 


这 整个 是 一 条 指令 ， 这 样 写 完全 是 为 了 更 具有 可 读 性 。 在 这 条 指令 中 ， 如 果 没 有 一 种 情况 匹 
配 ， 四 个 default 字 节 被 连接 起 来 产生 一 个 PC 相对 跳 转 偏 移 量 。 四 个 npairs 字 节 指明 包含 在 
switch 语句 中 的 match/offset 对 的 序号 。 栈 顶 的 整数 被 弹出 并 且 与 每 个 match 值 (每 个 有 四 个 字 
节 ) 相 比 较 。 如 果 发 现 一 个 匹配 ,那么 就 跳 转 到 由 相应 的 offset A (四 个 字 节 ) 所 得 到 的 PC, 
如 果 没 有 匹配 ， 分 支 就 转 到 default 位 置 。 

方法 通过 某 个 调用 指令 来 调用 ， 它 接受 一 组 静态 定义 的 参数 。 返 回 指令 用 来 定义 不 返回 值 
或 返回 一 个 值 。 在 Java ISA 中 ， 有 四 种 类 型 的 invoke 指令 。 最 常 使 用 的 一 个 是 invokevirtual in- 
dexl index2 ， 它 首先 在 常量 池 中 检索 描述 被 调用 方法 的 条 目 。 这 个 描述 包括 方法 的 地 址 、 接 爱 的 
参数 数量 和 类 型 、 使 用 的 局 部 变量 的 数目 和 最 大 操作 数 栈 的 深度 。 接 着 ， 检 查 栈 中 的 参数 以 确保 
它们 与 指定 的 参数 类 型 相 匹配 。 如 果 它 们 匹配 ， 则 分 配 一 个 适当 大 小 的 栈 帧 ， 并 且 这 些 参 数 作为 
局 部 变量 被 压 人 栈 中 ， 然 后 就 跳 转 到 被 调用 的 方法 。 返 回 的 PC 被 保存 在 栈 中 ,但 是 这 个 PC 值 
是 不 可 访问 的 ， 除 非 通过 返回 指令 间接 访问 。 

其 他 类 型 的 invoke 指令 还 有 : invokeinterface， 用 于 调用 一 个 接口 方法 ; invokespecial， 为 某 
些 类 型 的 方法 提供 特殊 操作 ， 例 如 初始 化 方法 ; 以 及 invokestatic， 用 于 调用 静态 方法 。 

一 个 典型 的 返回 指令 是 iretum ， 它 在 移 除 当前 栈 帧 之 前 从 当前 栈 帧 中 弹出 一 个 整数 。 这 个 整 
数 然 后 被 压 回 栈 中 供 主 调 方 法 使 用 。 最 后 ， 返 回 到 主 调 方法 。 当 返回 值 为 void 型 时 ， 使 用 简单 
的 return 指令 。 
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如 前 面 指出 的 ， 我 们 看 到 控制 流 的 一 个 重要 性 质 是 所 有 的 控制 路 径 可 以 容易 地 被 跟踪 。 所 
有 分 支 (包括 switch) 都 是 跳 转 到 固定 的 、 编 译 时 确定 的 PC 偏 移 量 ， 因 此 它们 在 加 载 时 是 已 知 
的 。 此 外 ， 方 法 调用 和 返回 也 可 以 被 跟踪 ， 因 为 它们 (通过 一 个 到 常量 池 的 固定 索引 ) 来 直接 
跳 转 到 一 个 方法 ， 而 不 是 间接 地 通过 指针 。 

跟踪 操作 数 栈 

除了 各 条 指令 规范 外 ，Java 字 节 码 ISA 也 定义 了 一 些 全 局 性 质 ， 以 保证 指令 序列 能 够 作为 有 
效 程序 的 一 部 分 。 这 些 全 局 性 质 体现 了 高 级 语言 V-ISA 和 传统 的 ISA 之 间 的 巨大 差异 。 在 这 些 
性 质 之 中 ， 有 一 个 就 是 在 程序 中 任何 一 个 给 定 的 点 ， 不管 是 从 哪 条 路 径 到 达 该 点 ， 操 作 数 栈 必须 
有 相同 数目 和 类 型 的 操作 数 ， 并 且 顺 序 相 同 。 这 允许 加 载 器 在 执行 之 前 分 析 程序 ， 以 便 检 查 正 被 
移 人 或 移出 内 存 的 类 型 (全 局 或 局 部 ) 。 亦 即 ， 在 操作 数 栈 中 的 值 类 型 可 以 通过 静态 程序 分 析 来 
跟踪 ， 没 有 必要 为 了 保证 类 型 正确 而 在 程序 执行 过 程 中 动态 地 查看 实际 的 类 型 。 这 个 性 质 也 意 
味 着 在 编译 每 个 方法 时 可 能 确定 操作 数 栈 的 最 大 深度 。 

图 5-10 给 出 了 三 个 例子 来 说 明 这 种 静态 栈 跟 踪 的 性 质 。 这 三 个 例子 都 有 控制 流 路 径 分 又 
(由 于 条 件 分 支 ) ， 然 后 汇合 。 从 而 有 多 条 路 径 会 到 达 汇 点 。 图 5-10a 是 一 个 合法 的 代码 序列 。 它 
首先 将 一 个 整数 A 压 人 栈 中 ; 然后 它 测 试 B; 如 果 了 等 于 0， 则 把 第 二 个 整数 C 压 人 栈 中 ， 否 则 
把 整数 FF 压 人 栈 中 。 在 这 一 点 ， 两 条 控制 路 径 汇 合 ， 然 后 将 栈 顶 的 两 个 元 素 相 加 再 存储 到 D。 关 
键 的 是 当 两 条 控制 流 路 径 汇 合 时 ， 不 管 经 过 了 哪 条 路 径 ， 操 作 数 栈 中 都 有 两 个 整数 。 


iload A //push int. A from local mem. 
iload B //push int. B from local mem. 
If_cmpne O elsel //branch if B ne O 

iload C //push int. C from local mem. 


goto endelsel 

elsel iload F //push F 

endelsel add //add from stack; result 
istore D //pop sum to D 


a) 一 个 有 效 的 序列 


iload B //push int. B from local 
If_cmpne 0 skipl //branch if B ne 0 

iload C //push int. C from local 
iload D //push D 

iload E //push E 

if_cmpne 0 skip2 //branch if E ne 0 

add //add stack; result to stack 
istore F //pop to F 


b) 一 个 无 效 的 序列 ， 这 里 要 汇合 的 路 径 有 不 辣 数 目的 
操作 数 ， 取 决 于 追随 的 路 径 


iload A //push int. A from local mem. 
If_cmpne 0 elsel //branch if A ne 0 





















aload B //push reference B from local mem. 
goto endelsel 
elsel iload C //push integer C from local mem. 
endelse1 iload D //push int. D from local mem. 







If_cmpne 0 else2 
astore E //pop reference to local mem. 
goto endetse2 
else2 istore F //pop integer to local mem. 
endelse2 ... 








Ce) 一 个 无 效 的 序列 ， 要 汇合 的 路 径 有 不 同类 型 的 
操作 数 ， 取 决 于 追随 的 路 径 


图 5-10 带 有 控制 流 汇合 的 代码 序列 例子 
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第 二 个 代码 序列 (图 5-10b〉 是 不 合法 的 。 如 果 B 等 于 0， 整 数 C 被 压 人 操作 数 栈 中 ; 然后 
不 管 B 的 值 是 什么 ， 整 数 D 都 被 压 人 栈 中 。 接 下 来 ， 代 码 序列 测试 E。 如 果 已 是 0,， 栈 顶 的 两 个 
元 素 相 加 ;否则 什么 也 不 做 。 最 后 ， 栈 顶 元 素 被 存储 于 局 部 内 存 位 置 F 中 。 这 段 代码 有 一 个 性 
质 : 如 果 B 等 于 0， 那 么 关于 EE 的 值 的 分 支 被 执行 时 ， 栈 中 就 有 两 个 元 素 ; 否则 在 代码 中 的 同一 
点 ， 栈 中 只 有 一 个 元 素 。 可 以 看 到 ， 只 要 了 B 是 0, EMBO, 或 者 相反 。 然 而 ,不 可 能 通过 代码 
的 静态 分 析 来 确定 这 个 事实 ， 因 此 无 法 知道 栈 在 这 个 代码 序列 末端 的 精确 内 容 。 

第 三 段 代码 示例 (图 5-10c) 也 是 不 合法 的 。 如 果 A 等 于 0， 它 将 一 个 引用 压 人 栈 中 ， 否 则 就 
压 入 一 个 整数 。 接 着 ,如 果 D 是 0， 从 栈 中 弹出 一 个 引用 ， 和 否则 弹出 一 个 整数 。 这 里 ， 从 不 同 路 径 
到 达 与 D 比较 的 那 条 指令 时 ， 栈 中 的 内 容 会 不 相同 。 如 果 碰 巧 只 要 A 是 0, D 也 是 0, 或 者 相反 ， 那 
么 数据 类 型 就 会 在 运行 时 “计算 出 ”。 不 过 ， 和 前 一 种 情况 一 样 ， 这 也 不 可 能 通过 静态 分 析 来 确定 。 

凭借 V-ISA 指定 控制 流 (分 支 和 调用 /返回 ) 的 方式 ， 用 一 个 相对 简单 的 分 析 就 可 以 确定 是 
否 遵循 正确 的 栈 规则 。 因 为 所 有 的 分 支 是 转 到 同一 个 方法 内 的 不 变 的 位 置 ， 方 法 内 的 所 有 路 径 
就 可 以 被 静态 确定 。 当 一 个 方法 被 调用 时 ， 我 们 知道 被 调用 的 方法 不 会 接触 操作 数 栈 的 任何 操 
作 数 ， 因 此 当 被 调用 的 方法 返回 时 ， 操 作 数 栈 中 的 内 容 与 调用 前 相同 (可 能 带 有 返回 值 ， 它 的 
类 型 由 invoke 操作 码 给 出 )。 因 此 ， 可 以 用 分 析 算 法 简单 地 跟踪 所 有 的 静态 控制 流 路 径 并 且 象 征 
性 地 模拟 一 个 栈 。 如 果 象 征 栈 的 内 容 在 控制 流 汇合 点 处 曾经 不 一 致 ， 那 么 这 个 程序 就 是 无 效 的 。 

示例 程序 

图 5-11 是 编译 图 5-5 中 给 出 的 Java 类 Rectangle 的 perimeter 方法 所 得 的 字 节 码 。 最 左边 一 列 
的 数字 是 相应 指令 的 PC 值 (作为 字 节 地 址 ) 。 第 一 条 指令 将 常数 2 压 人 操作 数 栈 中 ， 而 第 二 条 
指令 把 局 部 变量 0 压 人 栈 中 〈 按 约定 ， 局 部 变量 0 是 传人 到 perimeter ( ) 的 参数 ; 在 这 里 它 是 
一 个 到 和 矩形 对 象 的 引用 ) 。getfield 指令 然后 从 Rectangle 对 象 中 得 到 sides 数组 的 引用 。 对 象 引用 
是 在 栈 中 ， 并 且 常 量 池 条 目 2 包含 对 被 访问 域 的 描述 ， 即 那 是 一 个 引用 。getfield 指令 把 这 个 指 
向 sides 数组 的 引用 压 人 栈 中 。 接 下 来 的 两 条 指令 Cicnnst_O 和 iaload) 把 索引 号 0 EARP E 
数组 sides 的 引用 的 上 面 ) 并 且 从 数组 sides 中 加 载 元 素 0 (通过 从 栈 中 取出 的 引用 和 到 数组 索 
引 ) 。 接 下 来 的 四 条 指令 与 前 面 四 条 相似 ， 它 们 加 载 sides [1] 的 值 到 栈 中 。 此 时 ， 栈 底 是 常数 
2， 下 一 个 栈 值 是 sides [0] ， 而 栈 顶 是 sides [1]。 然 后 iadd imul 指令 序列 计算 2* (sides [0] 
+ sides [1])。 最 后 ， 最 后 一 条 指令 返回 ， 把 整数 结果 放 在 栈 项 。 


public int perimeter () ; 


iconst_2 
aload_0 
getfield#2; //Field: sides reference 
iconst_O 
iaload 
aload_O 
getfield#2; //Field: sides reference 
: iconst_1 
: iaload 
: iadd 
: imul 
: dreturn 


图 5-11 Rectangle 类 (在 图 5-5 中 ) 的 perimeter 方法 的 Java 字 节 码 





5. 3.4 异常 和 错误 
在 Java 结构 中 ,一 些 异常 (或 者 错误 ) 被 作为 ISA 部 分 来 定义 ， 并 且 可 以 作为 程序 的 执行 结果 被 
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抛 出 。 还 有 一 些 异 常 可 以 由 用 户 定义 并 且 通 过 执行 一 个 throw 指令 〈 稍 后 描述 ) 被 显 式 地 抛 出 。 

JVM 的 一 个 重要 性 质 就 是 所 有 的 异常 必须 在 某 处 被 处 理 。 亦 即 ， 没 有 全 局 的 方式 来 关闭 异 
常 ; 但 大 多 数 传统 ISA 可 以 关闭 对 异常 的 处 理 ， 每 一 类 陷阱 条 件 由 一 个 相应 的 掩 码 位 来 控制 。 这 
种 处 理 异常 的 基本 原理 不 是 高 级 语言 虚拟 机 所 特有 的 性 质 ; 但 它 是 为 全 局 程序 的 健壮 性 而 考虑 
的 。 如 果 一 个 异常 没有 被 抛 出 这 个 异常 的 方法 处 理 ， 那 么 就 弹出 当前 的 栈 桢 并 且 主 调 方法 接管 
任务 ; 如 果 主 调 方法 没有 异常 处 理 器 ， 那 么 就 弹出 另 一 个 栈 帧 ， 等 等 ， 直 到 最 终 到 达 主 程序 。 如 
果 此 时 还 没有 处 理 异 常 的 代码 ， 将 会 用 一 个 标准 的 异常 处 理 器 来 处 理 该 异常 (可 能 会 终止 这 个 
程序 ) 。 在 某 种 程度 上 ， 这 种 方式 迫使 程序 员 考 虑 所 有 的 异常 ， 以 便于 积极 地 处 理 它们 而 不 是 关 
闭 并 且 忽略 它们 。 

在 Java 中 ,错误 和 异常 之 间 有 一 些 区 别 。 错 误 并 不 一 定 由 应 用 程序 的 内 部 行为 引起 ， 相 反 ， 
它们 可 能 由 虚拟 机 实现 的 局 限 性 或 者 虚拟 机 错误 引起 。 另 一 方面 ， 异 常 是 由 程序 行为 引起 的 ， 它 
随 着 程序 的 执行 而 动态 出 现 。 静 态 检查 捕获 了 许多 编程 错误 和 朴 和 名， 但 是 某 些 类 型 的 行为 只 有 
到 运行 时 才能 被 捕获 到 。 错 误 的 一 个 例子 是 StackOverflowError， 它 指明 可 用 的 栈 空间 被 消耗 尽 
了 。 在 V-ISA 中 没有 结构 化 的 栈 大 小 ， 某 些 虚 拟 机 实现 可 能 会 比 其 他 虚拟 机 先 用 完 栈 空间 。 因 
此 ， 当 出 现 这 个 错误 时 ， 不 一 定 是 由 于 程序 错误 引起 的 ; 它 可 能 只 是 指明 主机 平台 没有 足够 的 内 
存 来 满足 应 用 需要 。 另 一 方面 ， 它 也 可 能 是 由 程序 错误 导致 的 ， 例 如 失控 的 递归 。 另 一 个 例子 
InternalError 表明 虚拟 机 遇 到 某 种 内 部 错误 类 型 。 就 像 任何 设计 良好 的 程序 一 样 ， 虚 拟 机 实现 软 
件 本 身 应 该 包含 内 部 错误 检查 。 如 果 虚 拟 机 捕获 到 这 样 的 内 部 错误 ， 它 便 抛 出 这 个 错误 。 

Java ISA 定义 了 许多 异常 。 这 些 是 必须 被 动态 检查 的 程序 异常 。 两 种 常见 的 异常 是 NullPointer- 
Exception 和 ArrayImdexOutOfBoundsException ， 通 过 名 字 就 能 清楚 地 知道 它们 的 含义 。 所 有 引用 
(“指针 ”) 必须 被 检查 ， 以 确保 当 它 们 在 使 用 时 是 非 空 的 〈 尽 管 某 些 显 式 的 检查 可 以 被 优化 移 除 ) 。 
同样 ， 必 须 检查 所 有 的 数组 索引 。 数 组 索引 是 仅 有 的 间接 访问 Java 数据 结构 方式 。 有 许多 与 类 型 检 
查 相关 的 异常 和 对 象 访问 。 例 如 ， 在 一 条 getfield 指令 被 应 用 于 一 个 静态 域 时 会 发 生 Incompatible- 
ClassChangeError， 尽 管 它 的 名 字 指 明 是 一 个 “错误 ”， 但 实际 上 是 一 个 异常 。 

在 Java ISA 中 ， 指 定 一 个 异常 处 理 器 是 可 能 的 ， 这 依赖 于 异常 发 生 的 地 点 。 为 了 实现 这 一 
点 ，JVM 把 每 个 方法 与 一 个 异常 表 关 联 起 来 。 这 里 是 异常 表 中 的 一 个 条 目 : 

起 始 指 令 位 置 终止 指令 位 置 目标 PC 类 型 
8 12 96 BARE 

这 个 表 项 指明 如 果 在 位 置 8 和 位 置 12 的 指令 之 间 的 任何 地 方 发 生 一 个 算术 异常 ， 就 应 该 跳 
转 到 位 置 96 处 的 处 理 器 。 这 个 表 是 根据 在 高 级 语言 程序 中 的 信息 建立 的 ， 例如 ，Java 的 try 和 
catch 区 域 。 如 果 一 个 从 起 始 位 置 到 结束 位 置 包 含 一 个 方法 调用 ， 那 么 除非 这 个 方法 有 自己 的 异 
常 处 理 器 ， 否 则 要 使 用 主 调 方 法 中 的 人 处 理 器 。 

在 一 个 异常 被 抛 出 时 ， 操 作 数 栈 被 立即 清除 。JVM 然后 在 异常 表 中 查找 异常 类 型 。 如 果 在 
出 现 异常 时 异常 类 型 和 PC 与 异常 表 的 一 个 表 项 的 起 始 / 终 止 范围 匹配 ， 那 么 就 会 跳 转 到 表 中 目 
bs PC 指定 的 位 置 。 如 果 没 有 找到 匹配 项 ， 当 前 栈 帧 被 移 除 ， 恢 复 调用 时 的 PC， 然 后 再 次 检查 
这 个 异常 表 ， 直 至 找到 一 个 匹配 的 表 项 或 者 到 达 最 外 面 的 程序 (main), 

除了 异常 表 ，JVM 支持 的 异常 还 包括 指令 athrow indexl index2， 它 显 式 地 抛 出 一 个 异常 。index1 
和 index2 的 值 形成 了 一 个 到 常量 池 的 索引 ， 常 量 池 的 相应 位 置 包含 了 一 个 被 抛 出 异常 的 描述 。 


5.3.5 二 进 制 类 
当 分 发 一 个 高 级 语言 虚拟 机 程序 时 ， 不 仅 要 包括 代码 ， 而 且 还 有 数据 结构 及 其 关系 的 详细 
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说 明 ， 即 元 数据 。 在 Java 术语 中 ， 代 码 和 元 数据 的 组 合 是 一 个 通常 包含 在 一 个 class 文件 《在 微 
软 CLI 中 它 被 称 作 一 个 模块 ) 中 的 二 进 制 类 。 实 际 上 ， 二 进 制 类 的 格式 是 由 底层 虚拟 机 支持 的 
“官方 ”接口 一 一 进 制 类 格式 和 传统 的 ISA 扮演 相同 的 规范 角色 。 迄 今 ， 我 们 已 经 按照 常规 广 
式 描述 了 二 进 制 类 的 组 件 。 在 本 节 的 剩余 部 分 我 们 讨论 Java 二 进 制 类 的 全 局 结构 。 

当 程 序 启动 时 ， 不 必 加 载 构 成 完整 程序 的 全 部 Java 二 进 制 类 (尽管 它们 可 以 )。 相 反 ， 二 进 
制 类 可 以 在 程序 需要 它们 的 时 候 被 加 载 。 除 此 之 外 ， 这 省 去 了 加 载 从 不 使 用 的 二 进 制 类 所 需 的 
带宽 ; 而 且 它 允许 仅仅 使 用 一 些 初始 的 二 进 制 类 ， 来 快速 启动 一 个 Java 程序 。 关 于 效率 ， 当 第 
_ 次 使 用 一 个 一 进 制 类 时 ， 它 被 解析 并 且 被 放 人 到 作为 虚拟 机 实现 的 一 部 分 的 方法 内 存 中 。 然 
后 在 随后 的 调用 中 ， 查 阅 方法 内 存 中 的 预 处 理 的 方法 信息 可 以 将 执行 效率 提高 很 多 。 

一 进 制 类 的 每 个 组 件 可 以 是 固定 大 小 ， 也 可 以 是 在 组 件 内 容 之 前 显 式 地 给 出 其 大 小 。 这 样 ， 
加 载 器 从 头 到 尾 解析 整个 的 二 进 制 类 ， 每 个 组 件 可 以 很 容易 地 被 识别 和 描绘 出 来 。 在 每 个 组 件 
之 内 ， 也 使 用 相同 的 原理 。 

图 5-12 给 出 了 二 进 制 类 的 布局 。 它 首先 由 一 些 头 部 信息 构成 ， 以 一 个 幻 数 开 始 ， 这 个 数 用 
于 标记 该 数据 块 为 一 个 二 进 制 类 。 幻 数 只 是 一 个 字符 序列 ， 并 且 所 有 Java 二 进 制 类 的 幻 数 都 相 
同 。 当 面临 一 个 可 能 包含 二 进 制 类 的 文件 时 ， 加 载 器 可 以 使 用 幻 数 作 一 个 快速 的 、 初 始 检查 以 保 
证 它 确实 包含 一 个 二 进 制 类 。 头 部 也 包含 二 进 制 类 的 版 本 信息 。 随 着 时 间 的 推进 ，Java 虚拟 机 会 
不 断 扩 展 ， 而 加 载 器 可 以 利用 版 本 号 来 将 其 检查 和 操作 限制 到 正确 的 版 本 上 。 

在 头 部 信息 之 后 是 一 系列 的 大 结构 ， 在 每 个 结构 之 前 都 列 出 了 该 结构 的 大 小 或 者 其 包含 的 
元 素数 目 。 其 中 主要 的 结构 是 常量 池 、 一 个 描述 方法 接口 的 表 、 一 个 描述 对 象 域 的 表 、- 个 包含 
方法 的 表 、 以 及 一 个 包含 许多 其 他 表 的 细节 信息 的 属性 表 。 下 面 
对 这 些 主 要 结构 和 一 些 次 要 结构 作 一 些 介绍 。 | 版 本 信息 O 

常量 池 常量 池 大 小 | 

常量 池 实质 上 保存 了 所 有 被 后 面 的 方法 所 使 用 的 常量 和 引 
用 。 每 个 常量 被 附加 一 个 类 型 信息 ， 以 便于 当 使 用 该 常量 时 可 以 
进行 类 型 检查 。 许 多 常量 都 是 符号 形式 的 ， 如 类 、 接 口 、 方 法 、 
以 及 域 的 名 字 。 

访问 标记 

顾名思义 ， 这 些 标记 提供 访问 信息 ， 例如， 这 个 特殊 类 型 
(类 ) 是 否 是 公有 的 ， 它 是 接口 还 是 类 ， 是 否 是 final 的 〈 即 它 从 
来 不 被 动态 地 重 写 ) 。 

本 类 和 超 类 

这 个 区 域 包含 本 类 和 这 个 类 的 超 类 的 名 字 ， 这 两 个 都 以 常量 
池 索 引 的 形式 给 出 。 名 字 本 身 在 常量 池 中 。 所 有 的 类 除了 Object 
类 ( 见 5.4.2 节 ) 以 外 都 有 一 个 超 类 。 对 于 Object 类 ， 超 类 是 零 。 

接口 

这 个 区 域 包含 当前 类 所 实现 的 各 个 接口 的 引用 ， 即 通过 这 些 
接口 可 以 直接 访问 当前 类 。 这 些 接口 都 是 以 常量 池 索 引 的 形式 给 
出 的 ， 常 量 池 条 目 中 放 的 是 对 接口 的 引用 。 

域 

这 个 组 件 包含 当前 类 的 各 个 域 的 规格 说 明 。 这 些 信息 包含 在 









每 个 域 的 一 个 小 表 中 ， 这 个 表 包 插 访 问 信息 《 公 有 的 、 私 有 的 、 图 5-12 Java 二 进 制 类 的 布局 
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受 保护 的 ) 、 一 个 名 字 索 引 (包含 这 个 域 的 名 字 的 常量 池 条 目 在 常量 池 中 的 偏 移 量 ) 、 一 个 描述 
符 索 引 (能 找到 这 个 域 的 描述 符 的 常量 池 的 索引 ) 、 以 及 一 个 属性 信息 。 

方法 

这 个 组 件 包 含 关 于 每 个 方法 的 信息 ， 如 名 字 和 描述 符 ， 还 有 方法 本 身 ， 被 编码 为 字 节 码 指令 
流 。 每 个 方法 也 可 以 由 属性 表 ， 例 如 ， 给 出 这 个 方法 的 最 大 操作 数 栈 深度 和 局 部 变量 的 数目 。 代 
码 本 身 作为 属性 表 的 一 部 分 出 现 。 也 包括 先前 描述 的 异常 表 ， 它 给 出 了 需要 检查 的 异常 类 型 以 
及 检查 该 异常 的 PC 范围 。 

属性 

属性 区 域 包含 前 面 其 他 组 件 有 关 的 详细 信息 。 通 常 ， 一 个 高 级 语言 虚拟 机 会 有 大 量 的 不 同 
类 型 的 属性 。 


5.3.6 Java 本 地 接口 


Java 本 地 接口 (JINI) 允许 Java 代码 和 本 地 编译 的 代码 互相 操作 。 例 如 ， 它 允许 Java 代码 调 
用 一 个 从 C 编译 而 来 的 例 程 ， 或 者 相反 。 尽 管 在 这 里 我 们 重点 讨论 前 者 ， 通 过 使 用 JNI, 一 个 C 
程序 甚至 可 以 调用 一 个 Java 虚拟 机 。 

图 5-13 给 出 了 JNI 的 和 它 的 操作 的 概要 。 在 图 的 左边 ，“Java 端 ” ， 我 们 看 到 在 前 面 节 中 描 
述 的 Java 结构 。 编 译 成 本 地 平台 ISA 的 代码 (和 数据 ) 位 于 图 的 右边 ， 即 “本 地 端 ” 。 然 而 ， 
值得 注意 的 是 ，Java 端 可 以 从 任何 一 种 语言 编译 而 来 ， 只 要 这 种 语言 的 编译 器 能 产生 标准 的 二 进 
制 类 ; 例如 ， 可 以 使 用 C#。 本 地 端 可 以 从 C 或 者 从 任何 INI 支持 的 其 他 语言 编译 而 来 ， 包 括 汇 
编 语言 。 图 5-13 的 每 一 端 编译 到 它 自 己 的 二 进 制 格式 。 在 Java 端 ， 这 些 是 标准 的 二 进 制 类 ; 在 
本 地 端 ， 它 们 是 本 地 平台 上 的 二 进 制 机 器 代码 。 在 Java 端的 数据 以 堆 中 的 对 象 和 数组 以 及 栈 中 
的 变量 形式 存在 。 在 本 地 端 ， 数 据 按 照 编译 器 给 定 的 方式 来 组 织 ， 即 它 是 依赖 于 编译 器 的 。 


Java 4% ' 本 地 端 


l; j 






图 5-13 Java 本 地 接口 。Java 本 地 接口 允许 Java 软件 和 本 地 编译 的 软件 互 操作 
INI Wy Java 方法 提供 了 一 个 接口 来 调用 本 地 方法 (如 图 所 示 )。 要 完成 本 地 方法 调用 ， 本 地 
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方法 必须 被 调用 的 Java 类 声明 为 native。 在 编译 声明 有 本 地 方法 调用 的 Java 类 之 后 , 它 就 被 传 给 
javah 程序 ，javah 将 为 本 地 方法 产生 一 个 头 文件 。 然 后 头 文件 和 本 地 方法 代码 可 以 被 编译 以 形成 
可 调用 的 本 地 方法 。 

JNI 规范 允许 在 Java 代码 和 本 地 方法 之 间 来 回 进行 控制 转移 ， 人 允许 传递 参数 和 返回 值 。 此 
bh, Æ Java 应 用 程序 中 ， 可 以 在 本 地 代码 中 被 捕获 和 抛 出 异常 以 便 对 它们 进行 处 理 。 为 了 使 本 
地 端的 代码 访问 Java 端的 数据 (或 者 在 Java 端 创建 对 象 ) INI 提供 了 许多 本 地 方法 一 一 例如 ， 
GetArrayLength 会 获得 一 个 Java 数组 的 长 度 ， 而 GetIntArrayElements 允许 本 地 代码 获得 一 个 指向 
Java 数组 元 素 的 指针 。 类 似 地 ， 在 本 地 端的 代码 可 以 通过 INI 方法 得 到 和 设置 对 象 域 。 


5.4 完善 平台 : APls 


在 5.2 节 中 ,我们 指出 Java 平台 是 JVM 和 一 组 标准 库 或 者 API 的 组 合 。JVM 是 平台 的 核 
心 ， 但 是 由 API 提供 绝 大 多 数 对 用 户 和 软件 开发 者 可 见 的 性 质 。 这 些 包括 支持 安全 网 络 计算 和 
基于 组 件 的 软件 ， 还 有 许多 传统 的 功能 ， 如 支持 图 形 用 户 界面 (GUIs)。 类 似 地 ，. NET 框架 是 
围绕 CLI 建立 的 ， 但 是 它 也 包括 大 量 的 实现 其 丰富 性 质 的 API。 虽 然 这 本 书 主要 关注 虚拟 机 ， 而 
不 是 API， 但 是 如 果 不 讨 论 API 的 功能 ， 似 乎 就 有 些 下 症 。 此 外 ， 某 些 APY 直接 与 虚拟 机 及 对 象 
在 低层 次 交互 ， 我 们 对 这 些 尤 为 感 兴趣 并 且 将 进一步 对 此 展开 讨论 。 


5. 4.1 Java 平台 


许多 计算 机 公司 提供 Java 平台 。 为 了 支持 应 用 软件 的 互 操 作 ， 这 些 平台 必须 遵循 标准 的 规 
范 并 且 包 含 相 同 的 API。 当 前 的 Java 规范 是 针对 Java 2 平台 的 (Shannon 等 2000) 。 同 样 也 规定 
了 版 本 ， 这 主要 是 针对 不 同 的 应 用 程序 和 用 户 来 分 的 。 每 个 版 本 间 的 区 别 在 于 它们 所 收录 的 API 
包 是 不 同 的 。 

J2SE 一 一 标准 版 本 : 看 名 字 就 知道 ， 这 个 版 本 可 能 是 针对 最 多 的 Java 用 户 和 开发 者 。 标 准 
版 本 平台 支持 在 企业 计算 环境 下 的 典型 PC 用 户 和 客户 端 应 用 。 它 也 收录 了 支持 基于 组 件 的 可 复 
用 软件 开发 的 API， 主 要 以 JavaBeans 为 基础 实现 ( 稍 后 简要 讨论 )。 

J2EE 一 一 企业 级 版 本 : 这 个 版 本 直接 针对 大 型 企业 级 软件 基础 结构 的 开发 ， 包 括 服务 器 端 
应 用 。 它 包括 企业 级 JavaBeans API， 支 持 基于 组 件 的 分 布 式 服务 器 应 用 的 开发 。 

J2ME 一 一 微型 版 本 : 这 个 版 本 为 基于 消费 的 组 入 式 系 统 定义 了 一 个 比较 轻 量 级 的 平台 , 它 
们 的 资源 经 常 是 受 限 的 。 因 此 ， 它 包含 一 个 较 小 的 目标 API 集 。 基 于 微型 版 本 的 骨 人 式 系 统 的 例 
子 包括 从 交互 式 电视 机 顶 盒 到 寻呼机 和 智能 卡 等 。 


5.4.2 Java API 


Java API 有 一 个 很 长 的 列表 ， 在 这 里 无 法 一 一 列举 和 讨论 。 我 们 只 给 出 其 中 一 些 特别 重要 的 
“核心 ”API 包 作 为 示例 ， 然 后 在 后 续 小 节 中 ， 我 们 挑选 一 些 特 定 的 、 尤 其 重要 的 低级 功能 进行 
额外 讨论 。 

java. lang 

这 是 核心 Java 编程 语言 API 包 ， 它 包含 Java 编程 语言 的 核心 类 。 这 些 从 Object 类 开始 ，Ob- 
ject 类 是 所 有 Java 类 的 超 类 。 它 还 包含 简单 数据 类 型 的 “包装 ”类 ， 例 如 Character 和 Integer, 
通过 这 些 类 可 以 将 简单 类 型 值 包装 起 来 作为 单独 的 项 目 存储 在 堆 中 。 另 外 ，java. lang 包含 低级 
的 runtime 和 system 静态 方法 和 对 浮 点 运算 的 支持 。java. lang 包 中 还 有 如 下 的 一 些 特殊 类 。 

Class 类 维护 了 对 Java 类 的 描述 信息 。 每 个 被 加 载 的 类 都 有 一 个 与 之 关联 的 Class 对 象 。 此 
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外 ， 一 个 类 的 Class 对 象 允许 程序 提取 出 关于 它 所 使 用 的 类 的 信息 ， 这 是 通过 一 个 称 为 反射 〈re- 
flection) 的 过 程 来 实现 的 ， 在 下 一 小 节 将 会 对 此 展开 描述 。 

Process 对 象 是 充当 一 个 到 JVM 外 部 的 本 地 进程 的 平台 无 关 的 接口 ，Thread 类 支持 JVM 内 部 
的 多 线程 。Thread 类 的 使 用 在 5. 4. 4 节 中 进一步 讨论 。 

SecurityManager 是 定义 实现 安全 性 策略 的 方法 的 类 。 可 以 调用 这 些 方法 来 确定 一 个 请 求 操作 
(如 读 或 写 一 个 文件 ) 是 否 被 允许 。 在 5.2. 1 节 已 经 对 安全 性 管理 器 的 总 体 功能 作 了 简要 讨论 ， 
在 6.2.2 节 中 会 进一步 讨论 。 

java. util 

这 个 包 包 含 许多 实现 基本 数据 结构 操作 和 维护 日 期 和 时 间 的 工具 类 。 例 如 ，Vector 类 支持 可 
以 随 着 对 象 的 增加 而 增长 的 对 象 数组 :Enumeration 接口 非常 适用 于 循环 遍 一 个 数据 结构 的 元 素 。 
Hashtable 类 支持 联合 数组 ( 常 被 实现 为 散 列表 ) java. util. zip 包含 用 于 压缩 和 解压 缩 zip 文件 的 
方法 的 类 ， 而 java util. jar 包含 文件 存档 的 类 。 

java. awt 

java. awt 〈 抽 象 窗口 工具 包 ) 包含 用 来 从 组 件 和 图 形 形 状 构建 GUI 的 类 。 布 局 管理 器 类 控制 
容器 对 象 中 的 图 形 组 件 。 

java. io 和 java. net 

java. io API 包 包含 用 来 执行 输入 /输出 操作 的 类 。 这 些 类 管理 数据 流 和 文件 系统 IO， 并 且 
它们 类 似 于 传统 高 级 语言 和 操作 系统 支持 的 IO FE, java net API 包 包含 用 于 网 络 支持 的 类 。 例 
如 ，socket 类 允许 一 个 程序 连接 到 一 个 端口 并 且 通 过 端口 读 写 数据 。 

我 们 现在 考虑 两 个 一 般 的 功能 ，Java 平台 的 核心 API 可 以 利用 这 两 个 功能 与 JVM 的 较 低层 
次 的 操作 交互 。 但 是 ， 并 不 意味 着 这 是 需要 密切 交互 的 唯一 情况 ; 它们 被 选 出 是 因为 它们 是 许多 
运行 在 Java 平台 上 的 应 用 的 基础 。 


5.4.3 序列 化 和 反射 


面向 对 象 编程 的 基本 概念 之 一 就 是 隐藏 对 象 的 内 部 特征 。 然 而 ， 在 有 些 情 况 下 暴露 对 象 的 
特征 却 很 重要 。 序 列 化 和 反射 涉及 到 将 一 个 对 象 的 特征 暴露 给 运行 在 这 个 对 象 上 的 程序 和 一 个 
给 定 虚拟 机 之 外 的 世界 。 例 如 ， 人 们 可 能 想 要 把 一 个 对 象 从 一 个 Java 程序 传 给 另 一 个 ; 也 许 这 
两 个 程序 正 运行 在 由 网 络 连 接 的 不 同 平台 上 。 这 通常 是 作为 远程 方法 调用 (RM) 的 一 部 分 来 
完成 的 ， 例 如 ， 一 个 客户 可 能 想 要 调用 在 远程 服务 器 上 的 一 个 方法 ， 就 可 能 需要 传递 一 个 对 象 作 
为 一 个 参数 或 返回 值 。 每 个 平台 在 内 存 中 存储 对 象 的 方式 可 能 会 不 同 ， 因 此 简单 的 复制 实现 一 
个 对 象 的 内 部 数据 结构 是 行 不 通 的 。 取 而 代 之 的 是 ， 被 传递 的 对 象 必 须 先 被 转换 为 一 种 独立 于 
实现 的 形式 ， 然 后 接收 端 程序 可 以 将 这 种 独立 于 实现 的 形式 转换 成 它 自己 的 依赖 于 实现 的 内 部 
形式 ( 见 图 5-14a)。 

下 面 举 男 一 个 例子 ， 一 个 程序 创建 的 对 象 只 有 在 程序 存在 时 才 存 在 ; 当 程 序 结束 时 ， 对 象 就 
消失 了 。 然 而 ， 在 许多 情况 下 需要 让 一 个 对 象 在 多 次 程序 执行 之 间 持 续 存 在 ,例如 存储 在 磁盘 
上 。 这 里 ,解决 的 办 法 又 是 把 对 象 转换 为 一 种 独立 于 实现 的 形式 存储 起 来 ， 以 后 能 重新 获取 
( 见 图 5-14b)。 这 两 种 情况 是 类 似 的 : 在 网 络 例子 中 ， 一 个 对 象 在 空间 上 从 一 个 程序 传递 到 另 一 
个 ， 而 在 后 一 个 例子 中 对 象 是 在 时 间 上 被 传递 。 

将 一 个 对 象 转 化 成 一 种 独立 于 实现 的 形式 的 过 程 被 称 为 序列 化 。 为 了 序列 化 一 个 对 象 ， 必 
须 将 该 对 象 声 明 为 可 序列 化 ， 这 意味 着 它 实 现 Serializable 接口 。 这 个 接口 允许 将 一 个 对 象 被 规 
范 地 编写 成 字 节 流 。 序 列 化 过 程 不 仅 可 以 序列 化 一 个 给 定 对 象 ， 而 且 可 以 序列 化 给 定 对 象 包含 
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的 引用 所 指向 的 所 有 对 象 ， 这 些 引 用 指向 的 对 象 包含 的 引用 所 指向 的 对 象 ， 等 等 。 序 列 化 过 程 包 
括 反 射 ， 即 具有 查找 出 一 个 对 象 内 部 的 所 有 成 员 的 能 力 。 一 旦 找到 ， 就 可 以 将 它们 组 织 为 一 个 标 ”B64 


准 的 字 节 流 。 


对 象 平台 A- , i 
gas PE > | “nae 


网 络 
a) 
“ai E So "ae 
WER | 序列 化 | => 依赖 表示 
一 致 存储 


b) 
图 5-14 序列 化 。 序 列 化 将 一 个 对 象 转化 为 一 种 独立 于 实现 的 形式 ， 可 以 是 a) 在 网 络 中 
被 传递 到 一 个 不 同 的 平台 或 者 b) 为 了 稍 后 使 用 而 永久 地 保存 


除了 序列 化 ， 为 了 在 运行 时 确定 类 信息 ， 许 多 有 趣 的 应 用 需要 用 到 反射 机 制 。 在 一 个 典型 的 
程序 开发 环境 中 ， 编 译 器 可 以 访问 编译 时 被 程序 使 用 的 类 的 信息 ， 因 此 在 编译 器 产生 新 的 二 进 
制 类 时 可 以 嵌入 这 些 类 信息 。 但 是 ， 在 有 些 情况 下 ， 类 信息 在 编译 时 是 未 知 的 ， 即 一 个 运行 的 程 
序 可 能 会 含有 一 个 未 知 类 型 的 对 象 的 引用 。 在 这 些 情况 下 ， 关 于 这 个 对 象 的 信息 必须 在 运行 时 
获得 。 这 是 通过 反射 机 制 来 实现 的 。 在 Java 中 ，java. lang. reflect API 是 到 一 个 类 的 Class 对 象 的 
接口 ， 程 序 中 的 每 个 类 都 有 一 个 这 样 的 接口 ， 其 中 包含 这 个 类 的 描述 信息 。Class 对 象 是 在 加 载 
一 个 对 象 类 型 时 由 JVM 创建 的 。 

反射 对 于 基于 组 件 的 编程 来 说 是 一 个 关键 。 在 Java 中 ， 基 本 的 程序 组 件 被 称 为 JavaBeans。 
为 了 便于 基于 组 件 的 程序 设计 ，JavaBeans 必须 遵循 一 组 特定 的 设计 模式 或 编码 规约 。 例 如 ， 一 
个 JavaBean 的 所 有 可 读 的 属性 必须 有 通过 一 个 方法 来 访问 ， 方 法 名 采用 形 如 “getproperty_name” 
的 形式 命名 。 如 果 程 序 调用 一 个 对 象 的 这 些 方法 ， 例 如 ，getFields( ) 方法 ， 将 获得 一 个 包含 
Field 对 象 的 数组 ， 这 些 对 象 反映 了 这 个 类 中 或 者 由 这 个 类 实现 的 接口 中 的 所 有 可 访问 的 公有 域 。 

一 个 可 视 化 的 基于 组 件 的 程序 设计 工具 允许 程序 员 通过 操纵 JavaBeans 在 一 个 高 的 层次 上 工 
作 。 程 序 员 可 以 利用 这 个 工具 加 载 一 个 JavaBean， 并 且 使 用 反射 API 和 JavaBean 设计 模式 来 分 
析 bean 的 接口 。 有 了 通过 反射 API 收集 来 的 信息 ， 开 发 工具 可 以 提供 这 个 JavaBean 的 图 形 表示 ， 
开发 者 就 可 以 用 它 来 修改 bean 的 性 质 ， 并 且 通 过 将 一 个 bean 中 的 事件 源 连 接 到 另 一 个 bean 中 的 
事件 侦 听 者 ， 使 得 组 件 之 间 的 通信 成 为 可 能 。 


5.4.4 Java 线程 


在 一 个 典型 的 JVM 实现 中 ， 许 多 多 线程 支持 是 由 java. lang 中 的 Java 库 提供 的 。 这 是 有 意义 
的 ， 因 为 对 多 线程 的 支持 必须 最 终 通过 底层 平台 的 操作 系统 来 提供 ， 而 与 底层 操作 系统 的 通信 
方式 是 通过 库 。 
如 前 所 述 ，java lang API 包括 一 个 Thread 类 。 线 程 可 以 通过 扩展 这 个 类 (并 且 继 承 它 的 方 
法 ) 来 定义 。 为 Thread 类 定义 的 方法 包括 : run( ) ， 启 动 一 个 线程 ，stop( ) ,终止 一 个 线程 ; 以 
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及 suspend() 和 resume( ) ， 看 名 字 就 应 该 知道 ， 它 们 用 于 挂 起 和 恢复 一 个 线程 。 为 一 个 Class 类 
型 的 对 象 调用 run( ) 会 启动 一 个 新 的 线程 。JVM 为 每 个 线程 单独 提供 一 个 栈 ， 并且 线程 之 间 通 
过 叫做 监视 器 的 机 制 来 同步 。 

监视 器 在 低层 由 结构 化 的 锁 和 两 条 Java 字 节 码 指 令 支 持 。 每 个 对 象 和 每 个 类 (一 个 类 的 
Class 对 象 包含 它 的 锁 ) 都 有 一 个 与 之 关联 的 锁 。 在 同一 时 刻 只 有 一 个 线程 可 以 拥有 一 个 特定 的 
锁 。 锁 实际 上 作为 一 个 计数 器 而 不 是 作为 一 个 单独 的 比特 标记 〈 像 人 们 期 待 的 那样 ) 来 操作 。 
字 节 码 指令 monitorenter 为 操作 数 栈 栈 顶 引用 所 指向 的 对 象 获取 锁 。 如 果 锁 已 经 被 其 他 线程 持 有 ， 
那么 请 求 锁 的 线程 阻塞 并 等 待 。 如 果 锁 没有 被 其 他 线程 持 有 ， 那 么 锁 的 计数 值 被 增加 而 请 求 锁 
的 线程 会 继续 执行 。 注 意 获取 锁 的 线程 可 能 已 经 持 有 锁 ， 在 这 种 情况 下 它 同 样 增加 锁 的 计数 值 
并 且 继 续 执行 。monitorexit 指令 为 操作 数 栈 的 栈 顶 引用 所 指向 的 对 象 减少 锁 的 计数 值 。 如 果 锁 计 
数值 减少 到 零 ， 那 么 它 被 释放 并 且 可 以 被 一 个 等 待 线程 (如果 有 的 话 ) 获取 。 

基本 的 锁 机 制 可 以 用 来 实现 监视 器 ， 以 保证 临界 区 的 互 斥 访问 ， 或 者 锁定 一 个 单独 的 对 象 。 
临界 区 是 一 个 在 给 定时 间 内 只 有 一 个 线程 可 以 执行 的 代码 区 域 。 临 界 区 一 般 操 纵 需 要 互 斥 访问 
的 共享 数据 结构 ， 通 常 是 在 它们 被 更 新 的 时 候 。Java 语言 中 的 同步 关键 字 会 向 下 编译 成 moni- 
torenter 和 monitorexit 指令 。 

除了 字 节 码 指 令 ，Object 类 声明 了 许多 支持 同步 的 方法 。 

wait( ) 一 一 释放 锁 并 且 加 入 到 给 定 锁 的 等 待 集合 中 ， 直 到 它 收 到 通知 ( 见 后 面 ) 。 一 个 锁 
的 等 待 集合 实质 上 是 一 个 虚拟 机 支持 的 等 待 该 锁 的 通知 的 线程 池 。 

wait( long timeout, int nanos) 一 一 释放 锁 并 且 加 入 到 给 定 锁 的 “等 待 集合 ” ， 直 到 它 得 到 通 
知 或 者 等 待 时 间 已 经 超过 timeout 毫秒 加 上 nanos AF, 

notify( ) 一 一 唤醒 在 锁 的 等 待 集合 中 的 一 个 线程 。 

notifyAll( ) 一 一 唤醒 在 锁 的 等 待 集合 中 的 所 有 线程 。 
wait 和 notify 机 制 用 来 支持 线程 之 间 协 作 的 监视 器 ， 其 中 生产 者 - 消费 者 问题 就 是 一 个 典型 代 
表 ， 例 如 ， 一 个 线程 可 以 产生 数据 项 并 且 将 它们 放 到 一 个 共享 缓冲 区 中 被 不 同 的 线程 消费 。 当 数 
据 在 缓冲 区 时 ， 生 产 者 线程 通知 消费 者 线程 。 在 缓冲 区 中 的 数据 消费 完 以 后 ， 消 费 者 线程 等 待 直 
到 它 再 次 得 到 通知 。 
5.5 微软 公共 语言 基础 : 一 个 灵活 的 高 级 语言 虚拟 机 

公共 语言 基础 (CLI) 是 一 个 虚拟 机 结构 ， 它 是 微软 . NET 框架 的 一 部 分 (Box 2002) 。 公 
共 语 言 运行 时 (CLR) 是 微软 的 CLI 实现 。 尽 管 它 支持 面向 对 象 的 、 基 于 网 络 的 计算 ， 就 像 
Java 那样 ， 但 是 CLI 的 目标 看 起 来 要 比 Java 的 广泛 。 


5.5.1 公共 语言 接口 


CLI 与 Java 环境 最 相似 的 方面 是 它 能 在 一 个 受 管制 的 运行 时 环境 下 支持 面向 对 象 的 编程 ， 
这 个 环境 包含 内 置 的 保护 检查 和 垃圾 收集 等 特性 。 尽 管 许多 高 级 语言 (一 些 带 有 扩展 ) 可 以 被 
编译 为 Java 二 进 制 类 ,但 是 Java 虚拟 机 是 专门 为 了 支持 Java 高 级 语言 而 设计 的 。 相 反 ，CLI 是 
为 了 支持 多 种 可 相互 操作 的 高 级 语言 ， 并 且 它 也 可 以 支持 不 必 被 加 载 器 验证 的 程序 。 因 此 ， 将 
CLI 与 Java 虚拟 机 本 质 上 的 区 别 是 CLI 追求 高 级 语言 的 独立 性 以 及 平台 的 独立 性 。 这 在 图 5-15 
中 说 明 。 

公共 语言 运行 时 (CLR) 是 CLI 的 一 种 实现 ， 并 且 是 . NET 框架 的 一 部 分 。 模 块 具有 标准 格 
式 ， 并 且 含 有 元 数据 和 微软 中 间 语 言 (MSL) 形式 的 代码 。 在 这 幅 图 中 ， 模 块 〈 类 似 于 Java 二 
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进 制 类 ) 可 以 从 许多 语言 产生 ， 包 括 〈 但 不 局 限于 ) CH ( 它 是 提供 垃圾 收集 的 C 的 面向 对 象 版 
本 ) Java, Visual Basic . NET 和 Managed C++, Managed C ++ 程序 可 以 运行 在 由 CLR 所 提供 
的 受 管制 的 运行 时 环境 下 ， 但 是 不 是 所 有 的 Managed C ++ 模块 必须 是 可 验证 的 。 

在 CLI 中 ， 一 个 代码 模块 可 以 按照 与 Java 二 进 制 类 相似 的 方式 来 进行 为 了 类 型 安全 性 的 验 
证 ， 并 且 可 验证 性 是 一 个 必要 的 性 质 。Managed C ++ 有 一 个 标记 ， 它 强制 所 有 的 代码 都 是 可 验 
证 的 (并 且 当 C ++ 程 序 员 使 用 不 安全 的 结构 时 产生 错误 ) 。 验 证 过 程 帮助 建立 了 一 个 允许 不 被 
信任 的 代码 安全 执行 的 运行 时 保护 域 。 但 是 ， 不 可 验证 的 (不 安全 ) 程序 仍然 被 允许 作为 受 管 
制程 序 环境 的 一 部 分 。 程 序 员 可 以 选择 产生 不 可 验证 的 代码 ， 这 些 代 码 可 以 与 可 验证 的 代码 交 
互 , 但 是 用 户 必 须 通 过 安全 管理 器 来 允许 这 种 交互 。 


IA-32 平台 





图 5-15 支持 互 操作 性 的 公共 语言 接口 。CLI 允许 平台 独立 和 高 度 的 高 级 语言 独立 


不 管 它们 是 否 是 可 验证 的 ， 所 有 的 程序 都 必须 是 有 效 的 。 某 些 程序 可 能 按照 不 合理 的 方式 
来 构造 ， 例 如 ， 一 个 程序 可 能 会 发 生 栈 下 溢 ， 在 加 载 时 通过 检查 代码 可 以 发 现 这 种 情况 。 像 这 样 
的 程序 是 无 效 的 〈 同 样 是 不 可 验证 的 ) ， 并 且 不 允许 运行 。 因 此 ， 订 以 有 如 下 三 类 应 用 程序 ,可 
验证 的 并 且 是 有 效 的 、 不 可 验证 的 但 是 有 效 的 、 以 及 无 效 的 。 这 与 Java 是 相反 的 ， 它 只 人 允许 两 
种 类 型 (可 验证 的 和 不 可 验证 的 ) 。 此 外 ， 程 序 员 可 以 混合 可 验证 
的 和 不 可 验证 的 程序 ， 因 此 ， 例 如 一 个 被 验证 的 程序 可 以 调用 一 个 
不 可 验证 的 库 程序 。 因 为 多 种 语言 以 及 可 验证 的 和 不 可 验证 的 程序 
是 以 一 种 集成 的 方式 被 支持 ，CLI 提供 一 个 比 JVM 更 加 完善 的 、 
通用 的 应 用 编程 环境 。 从 上限 前 来 看 ， 遗 留 的 不 安全 代码 与 新 开发 的 
可 验证 代码 相 混 合 时 ， 这 个 性 质 显得 尤为 重要 。 从 长 远 来 讲 ， 人 们 
期 望 遗 留 的 不 安全 代码 最 终 会 被 安全 的 可 验证 代码 所 取代 。 

CLI 模块 被 组 织 成 组 件 ， 就 像 Java 二 进 制 类 被 组 织 成 包 -一 样 ， 
图 5-16 说 明了 一 个 典型 的 CLI 模块 的 整体 结构 。 它 被 包含 在 一 个 
标准 的 微软 PE/COFF ( Portable Executable/ Common Object File 和 数据 
Format) 文件 格式 中 ， 更 进一步 地 强调 互 操 作 性 ; 操作 系统 就 像 处 《可 选 的 ) 

理 其 他 可 执行 文件 一 样 来 处 理 它 。 模 块 包含 头 部 信息 以 及 CLI 元 数 
据 和 代码 ， 并 且 它 也 包含 本 地 代码 和 数据 。 元 数据 由 许多 包含 对 象 图 5-16 CII 模块 的 整体 结构 
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定义 和 常量 (在 CLI 中 被 称 为 流 ) 的 区 域 组 成 。 通 常 这 些 概 念 与 Java 二 进 制 类 是 相似 的 。 

将 CLI 中 的 语言 互 操作 性 与 Java 中 提供 的 相 比 较 是 很 有 趣 的 〈 如 前 面 图 5-13 所 示 ) 。 图 5- 
17 中 给 出 了 关于 CLI 的 一 个 类 似 的 图 。 这 里 ， 所 有 的 程序 编译 成 MSIL 字 节 码 ， 例 如 包括 C 程 
序 。 数 据 结构 采用 的 都 是 公共 元 数据 的 格式 ， 不 过 ， 就 像 在 下 一 节 中 描述 的 那样 ， 元 数据 格式 包 
括 数据 块 和 浮动 指针 ，MSIL 程序 可 以 用 任何 方式 〈 如 用 C) 操纵 它们 。 这 个 代码 是 不 可 验证 
的 ， 但 是 它 仍然 可 以 在 受 管 制 的 环境 内 执行 。 


CH Ni 
CH 高 级 语言 程序 





图 5-17 可 验证 的 和 不 可 验证 的 代码 在 CL PASE. MSIL 字 节 码 程 序 通 过 公共 
元 数据 互 操作 ， 包 括 可 以 通过 浮动 指针 访问 的 内 存 块 数据 


因此 ， 在 CLI 中 ， 互 操作 性 不 像 Java 那样 是 在 方法 调用 级 实现 的 ， 而 是 采用 一 种 更 集成 的 
方式 来 支持 ， 它 扩展 到 了 数据 这 一 层面 : 在 一 种 语言 中 定义 的 类 型 可 以 跨 语言 使 用 。 然 而 ， 这 种 
更 加 高 度 集成 的 方式 并 不 是 不 需要 付出 代价 的 。 它 可 能 需要 对 已 存在 的 语言 实现 作 重大 改变 
(就 像 Visual Basic 那样 ， 它 的 对 象 模型 不 得 不 被 改变 为 C# 模 型 ) 。 实 现 互 操作 性 也 需要 编程 规约 
的 标准 化 。 例 如 ， 如 果 一 个 语言 的 变量 名 区 分 大 小 写 而 其 他 的 不 区 分 ， 那 么 为 了 实现 互 操作 性 ， 
它们 应 该 坚持 最 大 公分 母 原则 而 不 区 分 大 小 写 。 公 共 语 言 规范 (CLS) 包含 了 一 组 确保 高 级 语言 
之 间 互 操作 性 的 标准 规则 。 


5.5.2 属性 


CLI 支持 一 些 属性 ， 以 允许 程序 员 在 运行 时 利用 包 中 的 元 数据 传递 信息 。 这 些 信息 可 以 针对 
运行 时 软件 ， 也 可 以 针对 正在 执行 的 程序 。 某 些 属性 是 内 置 的 ， 即 它们 是 CLI 固有 的 。 自 定义 属 
性 也 可 以 支持 扩展 用 户 定义 。 程 序 员 可 以 给 保存 在 模块 中 的 任何 项 目 分 配 一 个 属性 ， 包 括 域 、 
类 、 方 法 、 或 者 参数 。 然 后 正在 运行 的 程序 可 以 通过 用 GetCustomAttribute 方法 实现 的 反射 机 制 
来 访问 属性 。 程 序 依据 这 个 属性 就 可 以 采取 一 些 措施 。 例 如 ， 考 虑 某 大 型 国际 工程 设计 产品 由 许 
多 不 同 的 公司 参与 ， 一 些 工程 师 可 能 以 英寸 为 单位 而 另 一 些 工 程 师 以 厘米 为 单位 ， 并 且 每 个 人 
都 基于 某 种 单位 来 编写 软件 。 一 般 而 言 ， 这 个 类 型 信息 的 传达 可 以 通过 放置 在 代码 中 的 注释 ， 也 
可 以 通过 其 他 外 部 文档 ， 包 括 口头 上 的 。 不 过 ， 这 给 用 户 带 来 了 负担 ， 用 户 需 要 仔细 检查 文档 以 
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免 出 错 。 通 过 将 一 个 [inches] 或 [centimeters] 属性 赋 给 一 个 对 象 数据 域 ， 就 可 以 把 所 使 用 的 
单位 作为 元 数据 的 一 部 分 自动 传达 给 其 他 程序 。 一 个 方法 访问 数据 域 时 ， 可 以 使 用 反射 机 制 来 
检查 单位 属性 ， 并 且 如 果 有 必要 的 话 转化 该 域 中 的 值 。 

属性 也 可 以 传递 信息 到 运行 时 软件 ， 例 如 ， 一 个 对 象 不 得 不 使 它 的 域 按照 特定 的 方式 来 布 
局 (或许 是 为 了 便于 它 能 被 本 地 代码 访问 ) 。 把 内 置 属性 [serializable] 传递 到 运行 时 系统 ， 表 
示 对 象 可 能 被 序列 化 ， 因 而 应 该 按 特殊 方式 来 实现 。 


5. 5.3 微软 中 间 语 言 


包含 在 中 间 语 言 MSIL (Lidin 2002) 中 的 指令 在 概念 上 与 Java 字 节 码 类 似 。MSIL 是 面向 栈 
的 ， 所 有 操作 都 是 通过 一 个 操作 数 (或 者 计算 ) 栈 来 进行 。 我 们 不 再 像 介绍 Java 字 节 码 那样 详 
细 介 绍 MSIL ， 而 是 重点 介绍 MSIL 和 Java 字 节 码 的 一 些 区 别 。 

图 5-18 说 明了 MSIL 的 内 存 结构 。 对 于 一 个 给 定 方法 ， 定义 了 一 个 局 部 数据 区 和 一 个 参数 
K, 但 是 它 们 不 是 像 Java 中 那样 作为 栈 巾 的 一 部 分 来 定义 。 在 实现 中 ,它们 可 能 保存 在 一 个 特 
定 于 实现 的 栈 中 , 但 是 任何 ML 指令 都 不 会 假设 它们 在 同一 个 栈 中 。 亦 即 ， 它 们 在 一 个 方法 被 
执行 时 只 是 可 访问 的 内 存 区 。MSIL 支持 许多 元 数据 表 ， 称 为 流 ， 而 没有 常量 池 ， 这 些 流 包含 与 
Java 常量 池 中 相似 的 信息 。 此 外 ， 指 令 可 以 将 一 个 常量 值 ， 不 论 是 长 的 〈 四 个 字 节 ) 还 是 短 的 
(一 个 字 节 ) ， 压 人 栈 中 。 元 数据 表 通 过 由 MSIL 支持 的 记号 来 访问 。 一 个 记号 包含 四 个 字 节 : 一 
个 字 节 是 元 数据 表 (W) 的 标识 符 ， 其 他 三 个 字 节 指向 表 中 的 特定 条 目 。 其 中 一 个 常量 流 保存 
程序 引用 的 字符 串 ， 并 且 存 在 一 条 特殊 的 MSIL 指令 ， 它 可 以 取得 一 个 字符 串 。 


元 数据 流 





图 5-18 MSIL 的 内 存 结构 


指令 集 利 用 和 Java 相同 的 栈 跟踪 特性 来 使 静态 类 型 检查 成 为 可 能 。 同 样 ， 和 Java 字 节 码 一 
样 ， 所 有 可 验证 的 控制 流 指令 要 么 有 一 个 记录 相对 偏 移 量 的 常数 PC， 要 么 是 方法 调用 /返回 指 
令 。 数 组 (arrays) 和 向 量 〈vectors) 都 是 固有 的 数据 类 型 ， 但 是 只 有 关于 向 量 的 显 式 MSIL 指 
令 ， 它 们 与 一 维 Java 数组 相似 。 多 维 MSIL 数组 可 以 通过 标准 的 API 程序 来 访问 。 还 可 以 创建 一 
个 指向 特定 数组 元 素 的 受 控 指针 ， 以 避免 重复 的 地 址 计算 和 范围 检查 。 

图 5-19 中 给 出 了 一 个 MSIL 代码 的 小 例子 以 及 对 应 的 Java 代码 。 在 这 个 例子 里 ， 两 种 代码 
的 指令 是 一 一 对 应 的 。 它 们 在 ISA 上 的 一 个 区 别 就 是 MSIL 在 指定 数据 宽度 时 有 更 多 的 灵活 性 ; 
AM, 过 表 示 一 个 四 字 节 的 整数 。 其 他 的 (依赖 于 指令 ) Bil. 2, Mi (PR) UR ul, 
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u2、u4 和 uw8 (无 符 导 ) 。 另 一 个 明显 区 别 是 当 执行 算术 运算 时 ，Java 字 节 码 显 式 指定 了 要 热 行 
的 操作 的 类 型 。 例 如 ， 在 Java 中 整数 加 法 和 浮 点 数 加 法 指令 是 不 同 的 。 相 反 ， 在 MSIL 中 只 有 一 
条 通用 的 加 法 指令 ， 其 类 型 可 以 从 栈 顶 的 操作 数 类 型 推断 出 来 。 在 某 种 意义 上 ， 像 Java 那样 将 
操作 类 型 放 和 人 操作 码 中 是 宛 余 的 ， 因 为 利用 栈 跟 踪 可 以 推断 出 所 需 操作 的 类 型 。 然 而 ， 作 为 解释 
器 的 一 部 分 来 实现 这 种 推断 将 减 慢 解 释 过 程 。 很 显然 (尽管 不 是 绝对 必要 ) ，MSIL 不 会 被 解释 
执行 ， 而 是 在 执行 前 总 是 先 被 编译 ， 如 通过 JIT 编译 器 。 最 后 ， 在 Java 中 ， 诸 如 域 描述 符 这 样 的 
项 目 都 是 在 常量 池 中 的 ， 而 MSIL 使 用 元 数据 记号 ， 由 记号 指向 程序 模块 中 的 某 个 流 。 


iconst_2 
aload_O 
getfield 
Tconst_0 
iaload 
aload_0 


getfield 
: dconst_1 
: iaload 
: iadd 
: imul 
: ireturn 


ldc.i4.2 
1darg.0 
1dobj 
1dc.14.0 
Idelem. i4 
ldarg.0 
1dobj 


<token> 


<token> 


: 1dc.i4.1 
: Idelem.i4 
: add 

; mul 

: ret 





a) b) 
图 5-19 例子 a) Java 代码 和 b) 对 应 的 MSIL 代码 


如 果 不 是 专门 设计 成 这 样 ， 诸 如 C 和 C ++ 这 样 的 传统 编程 语言 就 不 能 作为 被 验证 的 代码 在 
CLI 中 运行 。 在 C 和 C++ 程 序 中 ， 内 存 分 配 和 访问 没有 Java 或 者 C# 程 序 中 的 各 种 限制 。 未 指定 
类 型 的 内 存 块 可 以 被 访问 ， 并 且 指 针 可 以 作为 数据 来 操纵 ， 即 任意 的 算术 、 逻 辑 和 移 位 指令 可 以 
在 指针 上 执行 ， 并 且 它 们 可 以 被 自由 地 复制 。 为 了 支持 类 C 的 内 存 操作 〈 和 控制 流 ) MSIL 包 
含 许 多 不 可 验证 的 指令 。 

浮动 指针 在 主机 平台 上 只 是 代表 32 位 整数 。 利 用 不 可 验证 的 代码 ， 可 以 分 配 和 访问 C 风格 
的 内 存 块 。 局 部 块 分 配 指令 (localloc) 创建 一 个 未 指定 类 型 的 内 存 块 ， 块 拷贝 指令 (cpblk) 从 
一 个 浮动 指针 指向 的 位 置 复制 一 块 内 存 到 另 一 个 浮动 指针 指向 的 区 域 。 初 始 化 块 〈initbkk) 指令 
将 一 个 内 存 块 的 所 有 元 素 初始 化 为 一 个 特定 的 值 。 因 为 指向 内 存 块 的 指针 是 浮动 的 ， 它 们 可 以 
按照 和 C 中 一 样 的 方式 来 使 用 。 

关于 控制 流 ， 受 控 的 代码 分 支 指令 不 论 是 对 可 验证 的 代码 还 是 对 不 可 验证 的 代码 都 是 足够 
的 。 对 于 过 程 调用 ， 存 在 一 个 用 浮动 指针 识别 被 调用 的 过 程 的 间接 调用 (calli) 指令 。 


5.5.4 隔离 和 应 用 域 


CLI 的 最 后 一 个 值得 注意 的 性 质 是 支持 运行 在 同一 个 虚拟 机 上 的 不 同 应 用 的 隔离 。 当 多 个 应 
用 程序 同时 运行 时 ， 这 个 性 质 对 于 增加 整个 系统 效率 可 能 是 最 有 用 的 ; 例如 ， 这 在 服务 器 中 会 是 
很 普通 的 操作 方式 。 为 安全 起 见 ， 这 些 应 用 程序 应 该 彼此 隔离 ， 因 为 它们 通常 为 许多 不 同 的 用 户 
服务 。 实 现 隔离 的 一 种 简单 方式 是 给 每 个 程序 一 个 单独 的 虚拟 机 ， 这 个 虚拟 机 作为 一 个 用 户 级 
进程 继续 由 主机 平台 的 操作 系统 来 支持 ， 见 图 5-20a。 这 需要 使 用 相当 多 的 资源 ， 对 虚拟 机 级 和 
主机 进程 级 都 会 带 来 许多 不 必要 的 复制 。 

在 Java 中 一 种 可 能 的 解决 办 法 是 通过 类 加 载 器 系统 实现 隔离 ， 通 过 给 每 个 应 用 一 个 不 同 的 
名 字 空 间 ( 见 6. 1 节 ) 。 但 是 实际 的 结果 是 ， 类 加 载 器 并 没有 提供 绝对 的 分 离 ， 并 且 这 还 导致 了 
安全 漏洞 (McGraw 和 Felten 1999) 。 
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图 5-20 支持 许多 同样 的 应 用 。a) 通过 在 它 自己 的 虚拟 机 上 运行 每 一 个 ; b) 通过 应 用 域 


为 了 以 一 种 高 效 的 方式 解决 隔离 问题 ，CLI 支持 AppDomains (应 用 域 ) ， 它 提供 了 所 需 的 轻 
量 级 隔离 。 许 多 独立 的 进程 可 以 完全 隔离 地 共享 同一 个 虚拟 机 ， 见 图 $-20b。 因 此 ， 只 需要 一 个 
虚拟 机 和 一 个 主机 平台 ， 从 而 最 大 限度 地 提高 系统 资源 的 利用 率 。 注 意 每 个 进程 可 以 包含 多 个 
线程 ，CLI 进程 也 是 一 样 。 


针对 传统 ISA 的 进程 虚拟 机 在 某 种 意义 上 可 以 说 是 倒退 了 ， 因 为 它们 在 试图 为 过 去 几 年 
(经 常 是 几 十 年 ) 开发 的 平台 提供 兼容 性 。 相 反 ， 高 级 语言 虚拟 ISA (如 Java 字 节 码 和 微软 的 
CL) 则 在 不 断 进步 ; 它们 被 开发 出 来 ， 以 支持 进化 的 未 来 应 用 为 目标 。 当 与 库 相 结合 时 ， 虚 拟 
机 平台 为 面向 对 象 编程 范例 、 安 全 网 络 计 算 ， 和 基于 组 件 的 程序 开发 提供 了 灵活 的 支持 。 

为 了 对 本 章 进行 总 结 ， 我 们 把 虚拟 ISA 的 特点 与 传统 ISA 的 做 了 个 比较 。 这 个 总 结 主要 集 
中 在 前 几 章 中 指出 的 许多 问题 在 这 几 童 里 讨论 了 进程 虚拟 机 的 构建 和 传统 的 ISA 的 虚拟 化 。 
这 个 比较 为 我 们 提供 了 关于 现 有 的 虚拟 ISA 的 一 个 额外 的 视角 ， 并且 它 可 以 对 未 来 的 V-ISA FF 
发 提供 指导 。 


5.6.1 元 数据 


传统 的 ISA 没有 元 数据 。 编 译 器 在 它 生成 二 进 制 代码 时 使 用 已 声明 的 数据 结构 的 信息 ， 然 
后 将 这 些 信息 丢弃 ;所 有 数据 结构 的 信息 在 二 进 制 代 码 中 变 得 不 明显 了 。 在 V-ISA 中 ,数据 结 
梅 的 信息 是 与 程序 的 二 进 制 代码 一 起 被 维护 的 。 接 着 在 加 载 和 运行 时 ， 这 种 元 数据 信息 用 于 进 
行 类 型 安全 验证 ， 这 是 强制 执行 安全 性 的 一 个 关键 部 分 。 而 在 CLI 的 情况 下 ， 它 使 得 从 不 同 编 
程 语言 产生 的 代码 可 以 紧密 地 互 操 作 。 元 数据 信息 也 可 以 改善 仿真 性 能 ， 这 主要 是 通过 向 底层 
的 仿真 引擎 提供 单独 从 二 进 制 代码 中 难以 发 现 的 数据 相关 信息 来 实现 的 。 


5. 6.2 内 存 结 构 


在 传统 的 ISA 中 ， 人 逻辑 内 存 是 固定 大 小 的 ， 具 有 地 址 ， 这 是 ISA 的 一 个 特点 (并 且 可 以 让 
被 运行 的 程序 知道 )。 地 址 空间 可 以 是 单调 的 、 线 性 的 , 或 者 可 以 是 分 段 的 ; 但 是 如 果 是 分 段 
的 ， 段 经 常 是 固定 大 小 的 。 当 在 一 个 逻辑 内 存 容量 较 小 的 主机 平台 上 仿真 一 个 客户 ISA 时 ， 这 一 
特点 会 导致 “相配 ”问题 。 即 使 内 存 容 量 是 相同 的 也 会 有 相配 问题 ， 因 为 在 大 多 数 进程 虚拟 机 
中 ， 虚 拟 机 软件 必须 与 客户 应 用 进程 共享 地 址 空间 。 

此 外 ， 在 传统 的 内 存 结构 中 ，ISA 使 特定 的 地 址 对 于 用 户 程序 是 可 见 的 。 例 如 ， 如 果 sbrk( ) 
系统 调用 在 UNIX 系统 上 被 执行 〈 以 获得 更 多 的 内 存 ) ， 则 会 返回 一 个 特定 的 用 户 可 读 指 针 。 此 
外 ， 用 户 进程 可 以 在 特定 的 内 存 地 址 基础 上 改变 保护 ， 例 如 ， 在 页 大 小 的 粒度 上 ， 利 用 mmap( ) 
系统 调用 。 这 种 页 大 小 的 粒度 会 导致 进程 虚拟 机 实现 的 问题 ， 例 如 ， 如 果 客 户 页 大 小 比 主机 页 大 
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小 要 小 。 

这 些 问题 在 普通 的 虚拟 ISA 中 不 会 出 现 ， 因 为 它们 的 内 存 结构 更 加 抽象 并 且 内 存 大 小 是 不 
确定 的 。 基 本 方法 是 以 进程 的 逻辑 需求 为 基础 分 配 内 存 区 域 (如 对 象 或 栈 帧 ) ， 并 且 会 在 内 存 区 
域 被 分 配 时 提供 一 个 到 该 内 存 区 域 基 址 的 引用 。 栈 和 堆 的 大 小 是 不 确定 的 ， 并 且 栈 指针 或 者 对 
象 引用 的 实际 内 容 对 用 户 进程 是 不 可 用 的 ， 因 为 V-ISA 没有 提供 这 种 功能 。 可 以 使 内 存 访 问 与 
栈 指 针 和 对 象 引 用 关联 起 来 ， 但 是 不 能 显 式 地 读 写 它们 所 具有 的 实际 值 。 这 限制 V-ISA 级 进程 
只 能 有 内 存 的 一 个 逻辑 视图 ， 而 真正 的 物理 内 存 位 置 是 无 关 的 。 

尽管 结构 化 的 内 存 空间 ( 对 于 栈 或 堆 ) 是 不 确定 大 小 的 ， 但 是 实际 的 实现 资源 一 定 是 确定 
的 。 因 此 ， 为 一 个 进程 申请 的 内 存 可 能 会 多 于 可 利用 的 内 存 空间 资源 。 当 发 生 这 种 情况 时 ， 会 抛 
出 一 个 异常 来 通知 用 户 进 程 内 存 资源 不 足 ， 然 后 这 个 进程 也 许可 以 采取 修正 措施 。 不 过 ， 这 并 不 
是 一 个 大 的 缺点 ， 因 为 许多 利用 栈 和 堆 对 象 工作 的 现代 高 级 编程 语言 都 至 少 存 在 这 个 缺点 。 这 
里 主要 关注 的 是 如 何 将 不 确定 大 小 的 内 存 空间 向 下 移动 到 V-ISA 层 ; 如 甚至 一 个 V-ISA“ 汇 编 语 
言 ” 程 序 员 都 必须 处 理 不 确定 的 内 存 空间 问题 。 


5. 6. 3 内 存 地 址 格式 


在 传统 ISA 中 ， 地 址 计算 实质 上 是 不 受 限 制 的 。 亦 即 ， 地 址 可 以 使 用 任何 可 用 的 指令 来 产 
生 ， 因 此 可 以 产生 到 内 存 任何 部 分 的 任意 地 址 ， 且 这 些 地 址 可 以 被 任何 虚拟 的 加 载 或 者 存储 操 
作 使 用 。 这 导致 了 许多 关于 进程 虚拟 机 实现 的 问题 。 一 个 问题 就 是 被 虚拟 机 软件 (运行 时 系统 ) 
使 用 的 内 存 区 域 难以 不 被 仿真 的 客户 程序 访问 ( 见 3.4.3 节 ) 。 如 果 客 户 寄存 器 是 内 存 映射 的 ， 
这 就 尤其 成 问题 。 

普通 V-ISA 中 使 用 的 解决 方案 是 阻止 为 加 载 和 存储 操作 进行 任意 地 址 计算 。 解 决 方案 的 第 
一 部 分 是 强制 所 有 的 寻 址 都 通过 显 式 的 内 存 指针 (引用 ) 来 进行 。 另 外 ， 禁 止 对 引用 执行 随意 
的 运算 。 这 是 通过 有 一 个 特殊 的 引用 类 型 和 限制 在 引用 上 可 以 执行 的 操作 来 实现 的 。 最 后 ， 如 果 
已 知 一 个 引用 仪 访问 一 个 给 定 的 结构 (一 个 对 象 )， 那 么 可 以 使 用 已 声明 的 对 象 结构 和 对 象 性 质 
来 验证 地 址 的 有 效 性 。 根 据 这 些 信 息 的 可 用 程度 ， 来 确定 是 在 编译 (翻译 ) 时 静态 地 检查 ， 还 
是 在 运行 时 检查 。 


5. 6.4 精确 的 异常 


在 传统 的 1SA 下 ， 整 个 进程 的 状态 在 发 生 陷 阱 或 中 断 时 必须 是 精确 的 ， 并 且 许 多 指令 会 产 
生 陷 阱 。 此 外 ， 在 通常 情况 下 全 局 次 码 位 可 以 使 陷阱 和 中 断 可 用 或 不 可 用 ， 并 且 这 些 掩 码 能 够 洪 
在 地 改变 程序 的 执行 过 程 。 就 像 我 们 在 第 3、4 章 中 看 到 的 那样 ， 当 实现 一 个 虚拟 机 时 ， 精 确 陷 
旱 的 需求 可 以 引起 复杂 化 和 /或 性 能 损失 。 

在 V-ISA 下 ,通常 只 有 少数 指令 会 引起 异常 ， 而 对 异常 测试 的 需求 被 编码 到 程序 中 并 且 不 
能 通过 掩 码 位 来 改变 。 因 此 ， 可 以 基于 局 部 可 用 的 信息 来 决定 是 否 必 须 检 查 异常 ， 而 不 依赖 于 全 
局 的 掩 码 位 。 此 外 ， 对 精确 异常 的 需求 稍微 放松 了 些 。 例 如 ， 在 Java 中 操作 数 栈 的 状态 不 必 是 
精确 的 《实际 上 操作 数 栈 在 异常 抛 出 时 被 丢弃 )。 此 外 ， 如 果 蜡 常 处 理 器 不 是 局 部 于 一 个 方法 
的 ， 那么 在 一 个 异常 被 抛 出 后 ， 不 要 求 保存 在 这 个 帧 中 的 任何 局 部 变量 必须 是 精确 的 ， 同 时 该 方 
法 的 对 应 的 帧 也 被 丢弃 。 


5.6.5 指令 集 特点 
关于 使 仿真 容易 (或 复杂 ) 的 传统 ISA 的 特点 主要 有 两 个 ， 即 寄存 器 集合 和 条 件 码 。 仿 真 
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指令 集 ， 必 须 在 主机 内 存 中 定义 一 个 寄存 器 上 下 文 区域 ， 并 且 为 了 在 主机 寄存 器 和 寄存 器 上 下 
文 区 域 之 间 移 动 数据 ， 不 得 不 执行 加 载 /存储 操作 。 除 了 涉及 到 数据 移动 开销 之 外 ， 如 前 所 述 ， 
保护 寄存 器 上 下 文 区 域 也 是 一 个 难题 。 

当然 ， 最 小 的 寄存 器 集合 可 能 是 根本 没有 寄存 器 的 ; 局 部 值 和 操作 数 可 以 在 栈 中 被 维护 而 
不 是 保存 在 寄存 器 中 。 正 是 因为 这 个 原因 〈 以 及 代码 密度 的 原因 ) ， 大 多 数 常见 的 V-ISA 是 面向 
栈 的 。 关 于 条 件 码 ， 当 在 一 个 不 支持 条 件 码 的 主机 平台 上 仿真 一 个 具有 条 件 码 的 ISA 时 ， 将 产生 
更 大 的 问题 。 因 此 ， 在 ISA 中 避免 出 现 条 件 码 是 更 可 取 的 ， 就 像 当 前 的 V-ISA 那样 。 


5.6.6 指令 发 现 


对 于 任意 的 ISA， 代 码 发 现 都 存在 问题 ( 见 2.6 节 ) 。 其 根本 原因 是 间接 跳 转 可 能 跳 转 到 任 
意 位置 。 当 变 长 指令 与 内 艇 数据 相 结合 时 ， 是 难以 (或 者 不 可 能 ) 发 现在 间接 跳 转 之 后 的 代码 
的 。 显 然 ， 解 决 办 法 是 限制 间接 跳 转 。 特 别 的 ， 在 V-ISA 中 它们 被 限制 为 显 式 的 程序 (或 方法 ) 
调用 和 返回 ， 并 且 禁 止 修改 返回 地 址 。 然 后 ， 因 为 所 有 的 条 件 分 支 是 到 偏 移 量 是 一 个 常数 的 PC 
相对 地 址 的 ， 因 此 控制 流 是 可 以 被 静态 发 现 。V-ISA 也 将 代码 与 数据 相 分 离 ， 尽 管 它们 允许 可 变 
长 指令 。 然 而 ， 因 为 所 有 的 控制 流 是 构 露 的 并 且 没 有 内 艇 数据 ， 变 长 指令 本 身 不 会 带 来 问题 。 最 
终 的 结果 是 虚拟 ISA 被 显 式 地 设计 ， 以 便于 在 一 个 方法 在 第 一 次 被 调用 时 ， 所 有 包含 在 这 个 方 
法 中 的 代码 能 够 立即 被 发 现 。 


5.6.7 自修 改 和 自 引用 代码 


对 于 大 多 数 用 户 应 用 ， 自 修改 和 自 引 用 代码 不 是 必须 的 ; 实际 上 通常 会 阻止 这 些 情 况 的 出 
现 。 因 此 ， 自 修改 和 自 引用 代码 是 最 容易 处 理 的 ， 只 需 简单 地 使 它们 不 可 能 发 生 即 可 ; 这 种 操作 
没有 被 包含 在 常用 的 V-ISA 中 。 有 趣 且 颇 有 些 讽刺 的 是 ， 运 行 在 主机 平台 上 的 仿真 引擎 为 了 提 
高 好 的 性 能 可 能 高 度 依赖 于 自修 改 代码 。 例 如 ， 将 被 翻译 的 〈 或 者 IT 编译 的 ) 代码 写 人 代码 
cache 中 是 一 种 形式 的 自修 改 代码 。 


5.6.8 操作 系统 依赖 


如 前 几 章 讨论 的 ， 当 进行 进程 仿真 时 ， 对 客户 操作 系统 的 依赖 可 能 比 对 指令 集 的 依赖 更 加 
难以 处 理 。 所 有 的 指令 集 都 包含 一 些 使 它们 功能 完整 的 基本 指令 ， 即 保证 任何 功能 都 是 可 以 执 
行 的 ， 只 是 存在 完成 效率 的 问题 。 然 而 对 于 操作 系统 来 说 ， 可 能 不 是 这 种 情况 了 。 不 同 的 操作 系 
统 可 以 执行 不 同 的 进程 管理 、 文 件 IO、 网 络 、 图 形 等 。 

因此 ， 在 高 级 语言 虚拟 机 中 ， 首 选 的 处 理 操作 系统 依赖 的 方式 是 达成 某 种 最 不 常见 功能 的 
标准 集合 ， 并 且 用 标准 库 来 实现 它们 。 这 些 标准 库 必 须 被 移植 到 所 有 期 望 的 主机 平台 上 。 然 而 ， 
这 种 方法 说 起 来 容易 做 起 来 难 ， 并 且 在 某 些 平台 上 这 种 相配 可 能 不 是 完美 的 。 然 而 ， 库 接口 通常 
比 传统 的 操作 系统 接口 层次 更 高 ， 因 此 库 的 编写 者 为 实现 兼容 性 〈 至 少 在 可 接受 的 层次 上 ) A 
更 高 的 灵活 性 。 


第 6 章 高 级 语言 虚拟 机 实现 


一 个 程序 由 许多 二 进 制 类 或 模块 组 成 ， 它 们 根据 高 级 语言 虚拟 机 (HLL VM) 结构 来 规定 其 
操作 。 而 这 些 操 作 的 实现 则 由 高 级 语言 虚拟 机 实现 来 完成 。 本 章 主 要 通过 描述 最 著名 的 高 级 语 
言 虚拟 机 一 一 Java 虚拟 机 (JYM) ， 来 讨论 高 级 语言 虚拟 机 的 实现 。CLI 的 实现 在 许多 方面 是 类 
似 的 。 我 们 首先 描述 主要 的 实现 部 件 ， 然 后 考虑 在 高 级 语言 虚拟 机 实现 中 改善 性 能 的 方法 。 我 们 
以 一 个 具体 的 高 性 能 JVM，Jikes 研究 虚拟 机 (Jikes RVM) ， 作 为 案例 来 结束 本 章 。 

图 6-1 中 说 明了 一 个 典型 JVM 实现 的 结构 ( Venners 1998 ) 。 其 中 三 个 主要 部 件 是 类 加 载 器 
子 系 统 、 含 有 垃圾 收集 堆 的 内 存 系 统 ， 以 及 仿真 引擎 (有 时 称 为 执行 引 掌 )。 这 些 主要 部 件 依次 
是 用 较 低 级 别 的 组 件 来 实现 的 。 我 们 首先 简单 描述 这 几 个 主要 部 件 , 然后 再 详细 说 明 。 


二 进 制 类 类 加 载 器 子 系统 





图 6-1 Java 虚拟 机 的 实现 


内 存 和 状态 寄存 器 

内 存 由 一 个 程序 代码 区 、 一 个 全 局 内 存 区 、 一 个 结构 化 Java 代码 的 栈 和 一 个 本 地 库 代 码 的 
栈 组 成 。 程 序 区 在 很 大 程度 上 被 隐 式 地 定义 ; 常识 告诉 我 们 必须 有 一 个 用 来 保存 程序 的 区 域 。 不 
过 ， 只 能 通过 程序 计数 器 访问 程序 内 存 ; 决 不 会 用 加 载 和 存储 指令 来 显 式 地 访问 程序 内 存 。 进 一 
步 地 ， 决 不 能 直接 检查 程序 计数 器 的 内 容 。 

Java 栈 区 域 在 5.3.2 节 中 描述 过 ， 这 里 不 需要 进一步 解释 。 在 后 面 的 本 地 方法 接口 这 一 小 节 
中 ， 将 描述 本 地 栈 及 其 与 Java 栈 的 交互 。 与 栈 相关 联 的 是 一 个 隐 含 的 寄存 器 ， 栈 指针 。 与 程序 
计数 器 一 样 ， 栈 指针 被 指令 使 用 以 访问 内 存 ， 但 是 它 不 能 被 显 式 访问 ， 亦 即 ， 对 程序 来 说 ， 没 有 
检查 栈 指 针 内 容 的 手段 。 栈 的 精确 大 小 不 是 由 虚拟 机 的 结构 规定 的 ， 而 是 依赖 于 虚拟 机 的 实现 。 
如 果 在 任何 时 候 运行 程序 超越 栈 的 大 小 限制 ， 就 会 抛 出 StackOverflowError 异常 。 

全 局 内 存 是 一 个 动态 分 配 的 堆 。 当 创建 一 个 新 的 对 象 实例 时 ， 从 堆 中 为 它 分 配 内 存 。 和 栈 一 


BA E EMEA 167 








样 ， 堆 的 大 小 是 未 指定 的 。 如 果 堆 用 完了 空间 ， 则 会 抛 出 一 个 OutOfMemoryError 异常 。 为 了 减 
少 这 种 情况 发 生 的 可 能 性 ， 可 以 用 垃圾 收集 器 收回 不 再 被 运行 程序 需要 的 堆 内 存 。 

垃圾 收集 器 

许多 Java 对 象 被 程序 创建 、 使 用 ， 然 后 就 不 再 被 程序 需要 了 。 这 发 生 在 当 一 个 对 象 的 最 后 
一 个 (或 者 仅 有 的 ) 引用 被 销 裔 或 重 写 时 。 此 时 ， 这 个 对 象 成 为 垃圾 ， 因 为 它 对 运行 程序 不 再 
有 用 了 。 由 于 任何 实际 的 SVM 实现 都 会 有 一 个 有 限 数量 的 内 存 ， 回 收 或 收集 被 垃圾 对 象 所 使 用 
的 内 存 空 间 以 便 复 用 物理 内 存 资源 是 有 好 处 的 。 因 此 ， 大 多 数 JVM 实现 都 有 垃圾 收集 器 ， 它 负 
责 找 出 那些 不 再 被 需要 的 对 象 ， 以 便 为 其 他 新 的 对 象 腾 出 空间 。 

仿真 引擎 

仿真 引擎 由 本 地 方法 接口 和 隐 含 的 寄存 器 〈 即 程序 计数 器 和 栈 指针 ) 支持 ， 它 负责 仿真 Ja- 
va 字 节 码 指令 。 它 可 以 是 一 个 简单 的 解释 器 ， 或 者 可 以 执行 一 个 到 本 地 主机 指令 的 全 部 或 部 分 
的 翻译 (编译 ) 。 高 性 能 的 虚拟 机 实现 可 以 使 用 剖析 和 分 阶段 的 仿真 技术 来 首先 检查 热点 ， 然 后 
翻译 成 本 地 指令 保存 在 代码 cache 中 ， 就 像 在 前 面 章 节 中 讨论 的 那样 。 即 使 使 用 简单 的 解释 器 ， 
也 要 进行 某 些 对 程序 文件 的 预 翻译 。 例 如 ， 将 立即 数 直接 能 人 到 指令 中 可 以 消除 程序 文件 中 的 
某 些 间 接 性 〈 如 常量 池 的 使 用 ) 。 

本 地 方法 接口 

JVM 使 用 一 组 标准 库 来 访问 操作 系统 管理 的 功能 。 例 如 ， 这 些 库 可 以 执行 文件 IO 和 图 形 
操作 。 许 多 库 是 用 Java 编写 的 ， 并 且 按 照 本 质 上 与 面向 应 用 的 方法 相同 的 方式 ， 来 加 载 和 仿真 
这 些 库 关联 的 二 进 制 类 。 然 而 ， 实 际 上 ， 为 了 缩小 整个 系统 中 平台 独立 部 分 和 平台 依赖 部 分 之 间 
的 差异 ， 至 少 有 某 些 库 代码 被 编写 成 主机 的 本 地 代码 。 例 如 ， 许 多 对 主机 操作 系统 的 调用 是 通过 
本 地 方法 得 到 的 。 提 供 这 些 本 地 方法 〈 连 同 其 他 标准 库 方 法 一 起 ) 是 整个 JVM 实现 过 程 的 一 
部 分 。 

类 加 载 器 子 系统 

为 了 支持 网 络 计算 环境 ， 类 加 载 器 子 系统 执行 许多 必 不 可 少 的 功能 。 当 然 ， 它 把 含有 元 数据 
和 指令 的 类 文件 转化 为 一 个 依赖 于 实现 的 内 存 映像 。 它 首先 负责 从 系统 或 者 从 网 络 中 的 其 他 系 
统 中 找 出 二 进 制 类 ， 这 经 常 是 动态 的 并 且 是 在 需要 的 时 候 进行 的 。 加 载 器 子 系统 负责 验证 二 进 
制 类 的 正确 性 和 一 致 性 ， 是 一 个 在 网 络 环境 内 维护 全 局 安全 性 的 不 可 缺 的 部 分 。 我 们 在 下 一 节 
中 详细 地 讨论 类 加 载 。 


6.1 动态 类 加 载 


当 一 个 方法 被 一 个 程序 第 一 次 调用 时 ， 类 加 载 器 定位 所 请 求 的 二 进 制 类 ， 通 常 它 保存 于 一 
个 文件 中 。 然 后 类 加 载 器 检查 二 进 制 类 的 完整 性 ， 接 着 执行 代码 和 元 数据 的 一 些 翻译 以 便 准备 
好 运行 请 求 的 方法 。 

网 络 环境 的 一 个 重要 方面 就 是 它 必须 能 以 一 种 标准 通用 的 方式 标识 (命名) 变量 、 方 法 以 
及 其 他 数据 项 。 所 有 的 变量 和 方法 必须 作为 类 (类 必须 有 一 个 名 字 ) 的 一 部 分 来 声明 。 每 个 被 
编译 的 类 被 存储 为 一 个 单独 的 实体 ， 如 在 一 个 单独 的 文件 中 ; 一 个 或 多 个 类 可 以 被 组 合成 一 个 
称 为 包 的 逻辑 实体 。 因 此 ， 每 个 方法 或 变量 都 有 所 谓 的 完全 限定 名 ， 它 由 被 句点 分 开 的 包 名 、 类 
名 以 及 方法 或 者 变量 名 组 成 ， 例 如 ，testpackage. block. mass。 为 了 跨越 Internet 访问 包 ， 有 一 个 
基于 Internet 域名 的 命名 约定 。 例 如 ， 可 以 给 一 个 包 赋 予 如 下 的 完全 限定 名 : 


edu. wisc. ece. jes. testpackage. shape. area 


RÆ, Internet 域名 ece. wisc. edu (根据 约定 按照 逆序 ) 是 内 部 路 径 名 jes. testpackage 的 前 级 ， 以 
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提供 一 个 完整 的 包 和 名 。 对 包 、 类 和 域 的 访问 权限 定义 如 下 : 

。 包 是 依据 本 地 系统 中 的 访问 权限 来 访问 的 ， 例如， 是 否 允 许 外 部 ( 非 本 地 ) 用 户 对 公有 
访问 具有 读 或 执行 许可 。 

一 个 包 内 的 类 对 同一 包 内 的 所 有 其 他 类 是 可 以 访问 的 (这 个 作用 域 性 质 首先 是 有 包 的 原 
因 之 一 )。 

可 以 从 其 他 包 中 访问 被 声明 为 公有 的 类 ; 非 公 有 的 类 只 能 从 它 自己 的 包 内 访问 。 

一 个 类 的 所 有 域 可 以 从 自己 的 类 的 内 部 访问 。 如 果 域 不 是 私有 的 ， 则 同一 个 包 的 不 同 的 
类 是 可 以 访问 这 个 域 的 。 

类 加 载 器 系统 实现 了 动态 加 载 并 且 是 安全 系统 的 一 个 重要 部 分 。 一 个 Java 虚拟 机 实现 必须 
包含 一 个 基本 的 类 加 载 器 ， 其 操作 被 定义 为 JVM 规范 的 一 部 分 。 另 外 ， 用 户 也 可 以 定义 类 加 载 
器 作为 类 加 载 器 子 系统 的 一 部 分 。 基 本 的 类 加 载 器 可 以 被 信任 做 与 安全 相宜 的 事 ， 即 它 是 一 个 
可 信任 的 JvM 组 件 。 

像 刚 才 谈 到 的 那样 ， 可 以 有 多 个 用 户 定 义 的 类 加 载 器 ， 但 是 每 个 定义 了 一 个 独立 的 名 字 空 
闻 。 一 个 被 加 载 的 类 用 加 载 它 的 加 载 器 的 名 字 来 “标记 ”， 因 此 如 果 两 个 被 不 同 加 载 器 加 载 的 类 
恰好 有 相同 的 名 字 ， 则 它们 在 不 同 的 名 字 空 间 下 并 且 可 以 保持 独立 。 被 加 载 到 一 个 名 字 空 间 的 
类 不 能 与 其 他 名 字 空 间 中 的 类 相交 互 ; 实际 上 它们 甚至 不 知道 其 他 名 字 空 间 的 存在 。 因 此 ， 在 不 
同 的 名 字 空 间 之 间 实 质 上 有 一 个 屏障 。 不 同 的 类 加 载 器 通常 被 用 来 加 载 来 自 不 同 源 的 类 ， 从 而 
名 字 空 间 变 成 用 源 来 识别 。 

不 像 基 本 的 类 加 载 器 那样 必须 被 设计 成 可 信任 的 ， 用 户 提供 的 类 加 载 器 只 是 与 提供 它们 的 
用 户 一 样 被 信任 。 这 个 问题 可 以 被 略微 简化 ， 因 为 可 以 设计 一 个 用 户 提供 的 加 载 器 ， 使 得 它 依靠 
基本 的 类 加 载 器 来 辅助 加 载 二 进 制 类 ， 比 如 说 ， 作 为 保证 安全 的 一 种 手段 。 

在 定位 一 个 二 进 制 类 之 后 ， 加 载 器 解析 这 个 二 进 制 类 ， 并 且 将 它 翻 译 成 可 以 被 执行 引擎 仿 
真 的 内 部 数据 结构 。 这 包括 将 包含 在 二 进 制 类 中 的 元 数据 转化 为 一 种 更 加 服从 仿真 的 实现 依赖 
形式 。 作 为 这 个 过 程 的 一 部 分 ， 加 载 器 执行 一 些 一 致 性 检查 。 它 首先 检查 在 二 进 制 类 开始 处 的 幻 
数 (magic number) ， 以 确保 给 定 的 数据 至 少 被 声明 为 二 进 制 类 (这 种 检查 通常 在 虚拟 机 正 因 一 
个 “错误 的 ”文件 而 被 调用 的 地 方 发 现 一 些 简 单 的 错误 ) 。 更 重要 的 是 ， 加 载 器 通过 检查 确保 所 
有 的 组 件 都 具有 二 进 制 类 中 指示 的 大 小 ， 确 保 在 不 同 的 元 数据 结构 中 使 用 了 正确 的 格式 。 它 还 
可 以 检查 确保 参数 的 数目 和 类 型 在 调用 和 被 调用 方法 之 间 匹 配 。 在 二 进 制 类 之 内 ， 完 全 限定 引 
用 被 解析 ， 这 经 常 是 根据 需要 完成 的 。 完 全 限定 引用 是 符 导 。 在 被 解析 以 后 ， 完 全 限定 的 (4% 
号 的 ) 引用 被 一 个 直接 引用 取代 。 

加 载 器 的 另 一 个 重要 功能 是 验证 字 节 码 程 序 的 完整 性 。 亦 即 ， 它 检查 以 确保 栈 值 可 以 像 所 
有 良 构 程序 需要 的 那样 被 静态 跟踪 。 然 后 它 执行 所 有 的 静态 类 型 检查 ， 以 确保 没有 程序 错误 并 
且 程 序 将 不 违反 保护 边界 的 规定 。 这 个 过 程 在 下 一 小 节 中 详细 描述 。 加 载 器 通过 检查 确保 所 有 
在 常量 池 中 的 引用 是 在 程序 的 边界 之 内 的 ， 并 且 确 保 所 有 分 支 指令 是 到 它们 所 在 的 过 程 内 的 地 
址 的 。 最 后 ， 在 程序 被 验证 为 结构 正确 之 后 ， 内 存 被 初始 化 并 且 控制 被 传递 给 仿真 引擎 。 


6.2 实现 安全 


基本 的 保护 沙 盒 在 5.2. 1 节 中 已 笼统 地 描述 过 了 。 这 是 Java 中 使 用 的 默认 的 安全 模型 ， 尽 
管 这 个 模型 在 Java 2 规范 中 已 经 被 大 大 地 增强 了 。 在 本 节 中 ， 我们 首先 详细 说 明基 本 的 安全 模 
型 ， 然 后 描述 Java 2 的 改进 。 

在 沙 盒 模型 中 ， 总 体 目标 是 在 Java 执行 环境 周围 形成 一 个 屏障 ， 以 便于 用 户 应 用 被 限制 在 
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沙 盒 的 边界 之 内 操作 ， 并 且 不 能 影响 任何 其 他 的 系统 或 者 网 络 资源 ， 不 管 是 无 意 的 还 是 故意 的 。 
如 5.2.1 节 中 讨论 的 那样 ， 沙 使 有 三 个 主要 部 分 。 

第 一 ， 必 须 保 护 远 程 文件 。 像 先前 指出 的 那样 ， 远 程 文件 的 保护 是 在 远程 系统 管辖 的 范围 之 
内 。 在 远程 系统 上 的 任何 文件 被 文件 的 所 有 者 给 予 了 访问 权限 ， 并 且 这 些 最 终 由 远程 操作 系统 
维护 ， 不 论 是 Windows、Linux ， 还 是 其 他 操作 系统 。 对 任何 类 型 的 远程 访问 来 说 ， 不 论 是 在 Ja- 
va 执行 框架 的 内 部 还 是 外 部 ， 都 具有 相同 的 权限 。 

第 二 ， 本 地 文件 必须 受 运行 的 Java 程序 保护 。 亦 即 ， 本 地 文件 的 所 有 者 ,通常 是 运行 Java 
程序 的 用 户 ， 必 须 控 制 对 文件 的 访问 。 这 部 分 保护 沙 盒 是 通过 安全 管理 器 来 实现 的 ， 将 在 6.2.2 
节 中 详细 描述 。 

第 三 ，JVM 代码 和 数据 必须 受 运行 的 Java 程序 保护 。 即 Java 程序 应 该 不 允许 读 写 与 诸如 Ja- 
va 虚拟 机 索引 表 等 相关 的 数据 。 此 外 ， 程 序 应 该 不 允许 分 支 或 者 跳 转 到 JVM 中 的 任意 位 置 。 保 
护 沙 盒 的 第 三 部 分 是 通过 静态 和 动态 检查 相 结合 来 实现 的 ， 在 这 个 过 程 中 ， 被 加 载 器 执行 的 静 
态 检 查 起 着 关键 的 作用 。 下 一 小 节 讨 论 沙 盒 的 进程 内 保护 部 分 ， 随 后 讨论 安全 管理 器 。 


6.2.1 进程 内 保护 


建立 一 个 现代 面向 网 络 的 高 级 语言 虚拟 机 更 具 挑 战 性 的 一 个 方面 就 是 : 能 够 接受 来 自 网 络 
的 非 信任 的 程序 代码 ， 将 它 与 信任 的 虚拟 机 代码 相 结合 形成 一 个 单独 的 主机 支持 的 用 户 进程 ， 
然后 有 效 地 执行 这 个 非 信任 的 程序 。 基 本 目标 是 确保 应 用 代码 只 能 访问 它 自 己 的 内 存单 元 ， 并 
且 可 以 仅 通过 对 包含 本 地 信任 代码 的 库 的 方法 调用 来 与 JVM (以 及 主机 平台 的 剩余 部 分 ) 交互 。 

构建 保护 沙 盒 的 能 力 将 现代 高 级 语言 虚拟 机 与 早期 的 类 P-code 的 虚拟 机 很 明显 地 区 分 开 来 。 
为 了 理解 这 一 点 ， 考 虑 一 下 典型 的 P-code 环境 。 这 里 ， 编 译 器 是 一 个 信任 的 环境 ， 即 用 户 假设 
它 被 正确 地 实现 。Pascal 语言 被 设计 成 使 编译 器 在 编译 时 能 基于 程序 员 做 出 的 数据 声明 检查 数据 
类 型 信息 。 在 检查 完成 后 ， 产 生 P-code。 然 后 就 不 再 需要 静态 数据 类 型 信息 了 ， 更 确切 地 说 ， 这 
些 类 型 信息 被 构造 到 访问 数据 的 代码 中 ， 可 以 保证 P-code 将 只 按照 正确 的 方式 访问 数据 。P-code 
可 以 单独 传递 给 其 他 用 户 并 在 它们 的 计算 机 系统 上 运行 ， 从 而 实现 平台 独立 性 。 是 否 信任 P-code 
程序 的 提供 者 将 由 各 个 用 户 自己 决定 。 

早先 ， 假 设 其 他 用 户 总 是 愿意 信任 它们 的 程序 来 源 ， 这 种 情况 是 很 好 的 ， 不 过 这 种 信任 级 别 
在 网 络 计算 环境 中 经 常 是 不 存在 的 。 现 在 ,用户 想 要 能 够 执行 对 基于 网 络 的 计算 来 说 广泛 可 用 
的 程序 。 对 于 非 信任 代码 问题 的 一 种 解决 办 法 是 不 仅 传输 应 用 代码 ， 而 且 还 要 传输 一 种 可 检查 
的 、 代 码 将 操作 于 其 上 的 数据 结构 描述 ， 即 元 数据 。 然 后 当 程序 被 终端 用 户 加 载 时 ，( 信 任 的 ) 
加 载 器 会 利用 声明 的 元 数据 信息 对 程序 进行 静态 检查 。 如 果 程 序 代码 与 元 数据 相 一 致 ， 那 么 用 
户 可 以 保证 程序 只 会 按照 适当 的 〈 被 保护 的 ) 方式 访问 它 的 数据 。 此 外 ， 加 载 器 可 以 检查 程序 
的 控制 流 信息 以 确保 它 只 会 分 支 到 程序 自身 内 的 位 置 ， 或 者 使 用 正确 的 协议 执行 过 程 调 用 。 这 
就 是 高 级 语言 SA 强调 静态 类 型 检查 和 静态 可 跟踪 的 控制 流 信息 的 原因 。 当 然 ， 这 种 执行 高 度 
静态 检查 的 能 力 来 自 于 在 最 初 用 于 编写 程序 的 高 级 语言 (如 Java 或 C#) 中 引入 强 定型 特性 。 

现在 我 们 将 详细 地 说 明 允 许 进程 内 保护 的 Java ISA 的 特性 。 进 程 内 保护 有 两 个 主要 要 素 。 
首先 ， 必 须 保 证 程序 只 访问 它 自己 的 内 存 ; 即 ， 它 从 来 不 能 访问 在 它 声明 的 内 存 区 之 外 的 数据 。 
其 次 ， 必 须 保证 程序 不 会 分 支 到 它 自 己 的 代码 区 之 外 。 它 只 能 通过 库 调 用 离开 代码 区 ， 并 且 这 些 
库 是 信任 的 代码 。 

我 们 首先 给 出 对 于 数据 访问 保护 的 非 形式 的 归纳 证 明 。 正 如 数据 流 是 以 栈 为 中 心 那样 (W 
图 5-9) ， 我 们 的 证 明 将 围绕 栈 来 进行 〈 图 62)。 在 执行 任何 内 存 访 问 之 前 ， 有 一 个 空 的 操作 数 
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栈 ， 将 一 个 引用 放 人 操作 数 栈 的 唯一 方式 就 是 引用 来 自 常 量 池 或 者 来 自 局 部 内 存 。 如 前 所 述 ， 加 
载 器 静态 检查 各 常量 池 条 目 ， 因 此 可 以 保证 它们 是 一 个 有 效 的 引用 (或 者 为 空 )。 所 有 保存 引用 
类 型 的 局 部 内 存 位 置 被 初始 化 为 空 引用 。 此 外 ， 所 有 在 栈 和 局 部 内 存 之 间 的 移动 都 使 用 局 部 内 
存 位 置 的 绝对 地 址 。 因 此 ， 加 载 器 可 以 利用 数据 移动 操作 码 检 查 局 部 内 存 类 型 ， 以 确保 只 有 引用 
类 型 被 放 和 人 到 局 部 内 存 引用 位 置 。 








存储 : 必须 到 数组 存储 要 
具有 正确 类 型 范围 检查 
的 引用 和 域 


加 载 : 从 引用 / 域 
类 型 决定 类 型 


移动 到 局 部 存储 : 必须 到 


数组 加 载 要 范围 检查 具有 正确 类 型 的 位 置 






声明 (固定 ) 类 型 


移动 到 操作 数 存储 : 由 局 部 
存储 类 型 决定 的 类 型 





图 6-2 数据 流 和 进程 内 保护 检查 


一 旦 在 栈 中 ， 所 有 元 素 的 类 型 就 可 以 被 静态 跟踪 (就 像 在 5. 3. 3 节 末 尾 描述 的 那样 ) 。 特 别 
地 ， 回 顾 前 面 ， 对 于 任何 有 效 的 程序 ， 栈 中 元 素 的 数目 和 类 型 总 是 由 静态 代码 本 身 确 定 的 。 加 载 
器 在 程序 被 加 载 时 对 此 进行 验证 ， 这 其 中 意味 着 为 确保 类 型 正确 ， 可 以 静态 地 检查 任何 从 栈 到 
本 地 内 存 的 引用 的 数据 移动 。 

将 所 有 前 述 的 联系 起 来 ， 从 初始 条 件 开 始 ， 在 进行 任何 全 局 内 存 访 问 之 前 ， 任 何在 操作 数 栈 
中 的 引用 或 者 为 空 或 者 是 被 验证 的 取 自 常量 池 的 引用 值 〈 直 接 或 间接 地 通过 本 地 内 存 )。 此 外 ， 
这 些 引用 的 类 型 是 静态 已 知 的 。 

EFE, 考虑 对 全 局 内 存 的 访问 。 对 全 局 内 存 的 第 一 次 访问 是 对 由 操作 数 栈 中 的 一 个 引用 
所 指定 的 位 置 的 访问 。 由 于 能 够 在 栈 中 和 局 部 内 存 中 跟踪 引用 类 型 ， 所 以 这 种 引用 类 型 是 静态 
已 知 的 。 因 此 ， 如 果 访 问 一 个 对 象 ， 则 可 以 静态 检查 所 访问 的 域 信 息 〈 对 数组 有 一 个 例外 ， 在 
下 一 段 中 给 出 ) 。 如 果 这 个 访问 是 一 个 加 载 ， 则 被 加 载 的 数据 类 型 是 静态 已 知 的 ; 如 果 是 一 个 引 
用 类 型 ， 那 么 这 个 类 型 也 是 已 知 的 并 且 当 它 在 栈 中 或 者 在 局 部 内 存 中 时 是 可 以 被 静态 跟踪 的 。 
类 似 地 ， 如 果 一 个 值 (数据 或 引用 ) 被 存储 于 一 个 对 象 域 内 存 中 ， 由 于 在 局 部 存储 和 静态 域 定 
义 中 的 静态 跟踪 ， 这 个 值 也 可 以 在 存储 前 被 检查 ; 从 而 ， 存 储 在 内 存 中 的 值 会 和 静态 域 信息 相 一 
致 。 通 过 一 个 类 似 的 证 明 ， 接 着 完成 归纳 步骤 ， 如 果 所 有 的 数据 类 型 可 以 在 内 存 访问 i 之 前 由 静 
态 信息 确定 ; 那么 下 一 个 内 存 访问 i+1 也 必须 产生 静态 的 可 跟踪 的 类 型 信息 。 

刚才 给 出 的 证 明 的 一 个 重要 例外 牵涉 到 数组 访问 。 所 有 对 数组 的 加 载 或 者 存储 必须 使 用 数 
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组 引用 ;这些 也 可 以 被 静态 地 检查 类 型 信息 。 然 而 ， 数 组 和 其 他 对 象 的 区 别 在 于 被 访问 的 确切 元 
素 可 能 在 运行 时 被 计算 。 这 意味 着 必须 动态 地 检查 数组 的 实际 索引 ， 以 确保 它 在 数组 的 边界 之 
内 。 此 外 ， 所 有 的 引用 ,不管 是 对 数组 还 是 对 一 个 普通 的 对 象 ， 都 必须 做 空 值 检查 ， 以 防 在 它们 
第 一 次 使 用 时 还 没有 被 赋值 到 一 个 对 象 。 

另 一 个 需要 动态 检查 的 重要 之 处 发 生 在 将 一 个 对 象 引用 动态 转换 成 一 个 不 同 的 类 型 。 人 允许 
引用 的 任意 转换 类 型 会 破坏 那 部 分 通过 静态 检查 获得 的 保护 沙 盒 ， 因 为 静态 检查 依赖 于 对 象 类 
型 的 知识 。 然 而 ， 在 引用 被 转换 到 超 类 (上 沽 造型 ) RET (THEM) 类 型 的 情况 下 ， 可 
以 进行 类 型 转换 。 上 淹 造 型 的 安全 性 可 以 在 编译 时 被 检查 ; 而 下 潮 造 型 则 需要 在 和 运行 时 检查 以 
确保 被 转换 类 型 的 引用 是 到 一 个 与 它 当 前 引用 的 对 象 类 型 一 样 的 子 类 (或 者 同一 个 类 ) 。 

综 上 所 述 ， 即 使 一 个 程序 来 自 于 一 个 非 信任 的 源 ， 也 可 以 检查 这 个 程序 以 确保 它 没有 进行 
不 允许 的 内 存 访问 。 这 是 通过 结合 静态 (RN) 和 动态 (运行 时 ) 检查 来 完成 的 。 在 Java 
中 ， 许 多 检查 是 静态 进行 的 。 通 过 依靠 静态 类 型 检查 ， 动 态 检 查 通常 被 限制 在 空 指针 检查 、 对 数 
组 访问 的 边界 检查 ， 以 及 动态 类 型 转换 ， 以 确保 它们 在 类 层次 内 被 正确 地 完成 。 在 稍 后 的 高 性 能 
Java 讨论 中 ， 我 们 会 涉及 能 够 消除 某 些 动态 检查 的 分 析 方法 和 优化 。 

最 后 ， 考 虑 为 控制 转移 所 提供 的 保护 ， 即 决 没有 分 支 或 者 跳 转 离开 程序 有 效 代码 区 的 约 东 。 
控制 转移 只 能 通过 分 支 、switch 语句 和 方法 调用 完成 。 所 有 的 分 支 和 switch 语句 是 转移 到 相对 于 
PC 的 常数 值 的 。 因 此 ， 可 以 静态 地 检查 所 有 的 分 支 和 跳 转 以 确保 它们 分 支 到 仪 在 给 定 过 程 内 部 
的 指令 。 退 出 一 个 方法 的 唯一 方式 是 通过 方法 调用 /返回 (或 者 当 程序 结束 时 )。 因 此 ， 如 果 在 
内 部 检查 了 所 有 的 方法 ， 则 就 检查 了 整个 程序 。 


6.2.2 安全 强制 执行 


在 Java 实现 中 ,安全 管理 器 是 一 个 属于 java lang API 的 类 ， 它 包含 了 许多 用 来 检查 的 方法 
以 确保 可 能 的 不 安全 操作 不 被 执行 。 这 些 操 作 包括 读 一 个 特定 的 文件 ， 写 一 个 特定 的 文件 ， 打 开 
一 个 套 接 字 连 接 到 一 个 特定 的 主机 和 端口 号 ， 以 及 创建 一 个 新 的 进程 。 非 信任 的 用 户 可 以 通过 
直接 与 主机 操作 系统 交互 的 Java Æ (如 java io API) 中 的 方法 使 用 这 样 的 操作 。 在 执行 一 个 涉 
及 操作 系统 调用 的 被 请 求 的 动作 之 前 ， 信 任 的 库 方法 首先 通过 适当 的 方法 调用 与 安全 管理 器 核 
对 检查 ， 以 确保 允许 这 个 动作 的 执行 。 

安全 管理 器 检查 方法 简单 地 查看 所 要 求 的 操作 是 否 被 许可 ， 如 果 不 被 许可 则 抛 出 一 个 安全 
异常 ， 否 则 就 返回 。 当 一 个 Java 应 用 被 初始 化 时 ， 安 全 管理 器 就 被 加 入 并 且 此 后 不 会 被 改变 、 
删除 或 替换 。 因 此 ， 各 用 户 可 以 通过 安全 管理 器 指定 要 做 的 检查 ， 即 哪些 文件 应 该 被 访问 并 且 怎 
样 访问 ， 哪 些 网 络 端口 可 以 被 使 用 等 。 然 后 只 要 一 个 Java 应 用 被 启动 了 ,这些 检查 将 在 运行 这 
个 应 用 时 生效 。 

如 果 用 户 没有 选择 使 用 安全 管理 器 ， 那么 应 用 对 用 户 资 源 的 访问 是 无 限制 的 。 当 然 ，Java 应 
用 不 能 超过 用 户 的 特权 ， 因 为 JVM 是 作为 用 户 进 程 运 行 的 。 任 何 超 出 用 户 资源 的 尝试 将 被 主机 

台 上 的 底层 操作 系统 捕获 到 。 

安全 管理 器 不 能 保护 每 件 事 ， 例 如 ， 过 度 分 配 内 存 或 者 产生 太 多 的 线程 。 在 诸如 这 样 的 情况 
下 ， 难 以 或 者 不 能 辨别 错误 或 恶意 的 程序 和 有 大 量 资 源 需 求 的 程序 之 间 的 差异 。 例 如 ， 人 们 怎么 
能 确定 失控 递归 和 只 是 非常 深 的 递归 之 间 的 差别 呢 ? 实际 上 ， 检 测 这 个 差别 相当 于 解决 经 典 的 
图 灵机 停机 问题 。 因 此 ， 尽 管 存在 安全 管理 器 ， 仍 然 可 能 有 某 些 拒 绝 服务 的 攻击 。 

可 以 编写 一 个 安全 管理 器 来 实现 相对 复杂 的 策略 。 加 载 器 和 安全 管理 器 可 以 由 软件 开发 者 
或 者 用 户 定制 。 例 如 ， 安 全 管理 器 可 以 检查 看 一 个 请 求 是 否 产生 于 本 地 提供 的 方法 或 者 通过 网 
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络 加 载 的 方法 ， 接 着 根据 情况 允许 不 同 的 资源 访问 。 
6.2.3 增强 的 安全 模型 


基本 的 安全 沙 盒 通 过 在 JDK 1. 1 中 添加 签名 来 扩展 ， 然 后 随 Java 2 (McGraw 和 Felten 1999 ) 
中 的 访问 控制 而 被 增强 。 身 份 和 签名 概念 的 使 用 摆脱 了 要 人 么 全 有 要 么 全 无 的 沙 盒 方式 ， 而 允许 
更 加 灵活 、 更 细 粒 度 的 安全 策略 ， 其 中 来 自 不 同 源 的 代码 可 以 被 授予 不 同 的 访问 权限 来 访问 用 
户 资源 。 

如 果 可 以 安全 地 识别 特殊 的 外 部 程序 源 ， 那 么 就 可 以 实现 广泛 多 样 化 的 安全 策略 ， 每 一 条 
安全 策略 依赖 于 给 定 应 用 程序 的 特定 的 源 。 支 持 源 的 安全 识别 技术 是 签名 。 签 名 的 基本 想法 很 
简单 : 如 果 一 段 从 外 界 引 入 的 代码 可 以 按 不 可 伪造 的 方式 被 签名 ,那么 本 地 安全 系统 可 以 检查 
这 个 签名 并 且 为 这 段 给 定 的 (被 签名 的 ) 代码 提供 适当 的 访问 权限 。 

签名 基于 公 钥 加 密 系 统 (Diffie 和 Hellman 1976 ) 。 在 一 个 公 钥 加 密 系 统 中 有 公 钥 / 私 钥 对 。 
一 个 消息 用 公 钥 加 密 而 用 私 钥 解 密 。 这 个 系统 的 关键 特性 是 公 钥 不 能 以 任何 可 行 的 方式 确定 私 
钥 。 因 此 ， 只 有 私 钥 的 拥有 者 可 以 解密 一 个 消息 。 

图 6-3 说 明了 公 钥 加 密 技术 应 用 到 对 应 用 代码 (和 其 他 数据 类 型 ) 的 签名 。 源 应 用 代码 
(一 个 二 进 制 类 ) 首先 将 代码 散 列 到 一 个 较 小 的 规模 (由 于 全 局 效率 的 原因 ) ， 然 后 使 用 私 钥 加 
密 被 散 列 的 版 本 。 被 散 列 的 加 密 版 本 是 一 个 附加 到 二 进 制 类 上 的 签名 ， 并 且 跨 越 网 络 被 送 到 希 
望 执 行 它 的 地 方 。 在 接收 端 ， 收 到 的 二 进 制 类 被 再 次 散 列 (使 用 和 前 面相 同 的 散 列 消 数 )， 而 签 
名 被 解密 。 然 后 比较 被 散 列 代码 的 两 个 版 本 。 如 果 它 们 是 相同 的 ， 那么 可 以 确保 这 个 二 进 制 类 的 
所 有 者 (发送 者 ) 正 是 所 需要 的 。 安 全 管理 器 之 后 就 可 以 依照 本 地 用 户 建立 的 策略 对 本 地 资源 
授权 访问 。 





图 6-3 使 用 一 个 公 钥 加 密 系统 来 签名 一 个 二 进 制 类 文件 


因为 可 以 安全 地 识别 程序 源 的 身份 ， 所 以 对 所 有 程序 源 来 说 ， 就 不 再 有 必要 应 用 要 么 全 有 
要 么 全 无 的 沙 傅 了 ， 可 以 实现 细 粒 度 、 可 配置 的 安全 策略 。 例 如 ， 可 以 允许 来 自 一 个 外 界 源 的 程 
序 打开 网 络 连 接 ， 而 其 他 的 则 不 能 。 一 个 程序 可 以 被 给 予 只 对 文件 A 的 访问 权 ， 而 另 一 个 则 可 
以 被 给 予 只 对 文件 B 的 访问 权 。 

当 来 自 不 同 源 的 二 进 制 类 被 允许 作为 同一 程序 的 一 部 分 互 操作 时 ， 这 种 灵活 的 方式 就 会 引 
起 某 些 潜在 的 问题 。 例 如 ， 如 果 一 个 方法 属于 来 自 对 给 定 文件 没有 访问 权限 的 源 的 二 进 制 类 ， 这 
个 方法 调用 一 个 来 自 对 该 文件 有 访问 权限 的 源 的 方法 ， 然 后 通过 被 调用 的 方法 间接 执行 文件 的 
访问 ， 情 况 会 是 什么 样 呢 ? 安全 管理 器 可 以 通过 检查 方法 调用 栈 来 解决 这 一 问题 ， 它 不 仅 检查 做 
出 请 求 的 方法 的 访问 权限 ， 而 且 检查 在 调用 序列 中 的 所 有 早先 的 方法 (Wallach 和 Felten 1998) 。 

栈 检查 在 图 6-4 中 说 明 。 每 个 栈 帧 被 附加 上 指示 该 方法 来 自 于 信任 的 系统 源 还 是 非 信任 的 源 
的 主要 信息 。 同 样 ， 还 有 与 方法 的 源 同 时 存在 的 关于 访问 权限 的 信息 。 在 一 系列 的 方法 调用 之 
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后 ， 结 果 栈 帧 如 图 所 示 。 非 信任 的 方法 2 有 写 文件 A 的 许可 ， 但 是 被 限制 访问 其 他 文件 。 另 一 
WH, 方法 4 有 写 文件 B 的 许可 。 现 在 ， 当 方法 4 试图 写 文件 B 时 ， 它 将 首先 调用 安全 管理 器 
检查 方法 的 17O API 方 法 5 来 完成 这 个 。 安 全 管理 器 按照 道 序 遍 历 这 个 栈 ， 检 查 它 在 栈 中 找到 的 
所 有 方法 的 访问 许可 。 当 它 到 达 方法 2 时 ， 它 发 现 写 文件 B 的 许可 不 应 该 被 授予 ， 于 是 抛 出 一 


个 异常 。 
e fee 
. X 操作 禁止 
不 可 靠 的 
f [= 










方法 5 


图 6-4 扩展 有 资源 访问 许可 的 方法 调用 。 安 全 管理 器 检查 这 个 栈 以 实施 保护 


6.3 垃圾 收集 


在 面向 对 象 编程 环境 中 ， 对 象 可 以 被 自由 的 创建 、 使 用 ， 并 且 稍 后 当 不 再 需要 它们 时 被 丢 
弃 。 程 序 员 被 造成 有 一 个 无 限 的 内 存 空 间 的 错觉 ， 并 且 不 必 为 显 式 地 分 配 和 管理 一 个 固定 容量 
的 内 存 而 担心 。 当 然 ， 在 现实 中 ， 内 存 资源 不 是 无 限 的 ， 并 且 最 终 程序 可 能 用 完 内 存 资源 (这 
会 导致 抛 出 OutOfMemory 异常 )。 为 了 防止 发 生 这 种 情况 (或 者 至 少 阻 止 它 )， 不 青 访问 的 对 象 
(CEHI RR”) 可 以 被 收集 然后 被 新 的 对 象 复 用 。 

在 图 5-5 中 的 简单 例子 里 ， 当 引用 a 被 赋值 到 一 个 新 的 Rectangle 对 象 时 ， 它 指向 的 前 一 个 
Rectangle 对 象 就 不 能 到 达 了 。 这 是 一 个 对 象 成 为 垃圾 的 典型 方式 一 一 用 一 个 到 相同 类 型 的 不 同 
对 象 的 引用 重 写 对 这 个 对 象 的 最 后 一 个 (或 者 唯一 的 ) 引用 。 在 其 他 情况 下 ， 最 后 一 个 引用 可 
以 简单 地 被 丢弃 ， 如 通过 从 栈 中 弹出 它 。 

垃圾 收集 器 实质 上 是 每 个 JVM 实现 的 一 部 分 ， 尽 管 没 有 严格 要 求 它 作为 IVM 规范 的 一 部 
分 。 当 JVM 在 低 内 存 资源 上 运行 或 者 定时 运行 时 ， 它 调用 垃圾 收集 器 来 找 出 不 可 达 的 无 用 对 象 ， 
并 收集 它们 的 内 存 资源 供 以 后 使 用 。 一 个 典型 的 情况 如 图 6-5 所 示 。 这 里 ， 引 用 的 根 集 指向 保存 
在 全 局 内 存 堆 中 的 对 象 。 这 些 对 象 中 的 一 些 依次 包含 指向 其 他 对 象 的 引用 ， 等 等 。 同 样 ， 还 有 一 
些 对 象 不 能 通过 从 根 集 开始 的 引用 序列 到 达 ， 这 些 是 无 用 对 象 。 

为 了 开始 垃圾 回收 操作 ， 首 先 有 必要 确定 这 些 根 指针 。 通 过 参考 图 5-7 (并 且 考 虑 Java 指 
令 集 ) ， 我 们 可 以 看 出 根 集 必须 包含 在 栈 中 某 处 的 引用 ,包括 局 部 存储 和 操作 数 栈 ， 或 者 在 常 
量 池 中 。 根 集 还 必须 包括 静态 对 象 所 含 的 引用 。 任 何 对 全 局 内 存 的 访问 ， 即 通过 getfield 或 者 
putfield 指令 ， 必 须 从 这 些 地 方 之 一 取得 其 引用 ， 并 且 任 何不 能 由 根 集 的 某 个 成 员 开 始 的 引用 
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序列 来 访问 的 对 象 只 能 是 不 可 达 的 。 因 此 ， 垃 圾 收集 从 引用 的 根 集 开 始 找 出 所 有 可 以 访问 的 
WE; 任何 在 这 个 过 程 中 没有 被 发 现 的 对 象 都 是 可 以 被 回收 的 垃圾 。 有 许多 方法 来 实现 这 些 
操作 (Jones 1996; Wilson 1992; Appel 1991) ， 在 随后 的 小 节 中 我 们 总 结 一 些 主要 的 垃圾 收集 
技术 。 i 








图 6-5 WRK, HRG, DAH BHR 


在 讨论 过 程 中 ， 要 考虑 许多 折 中 。 收 集 垃圾 所 花费 的 时 间 不 是 花费 在 计算 上 的 时 间 ， 因 此 垃 
圾 收集 的 开销 是 一 个 重要 的 全 局 实现 考虑 因素 。 此 外 ， 不 同 的 方法 有 不 同 的 堆 结构 ， 有 不 同 的 将 
垃圾 收集 成 自由 空间 的 方法 ， 并 且 可 以 实现 不 同 的 对 象 引 用 。 因 此 ， 要 考虑 的 重要 折 中 包括 垃圾 
收集 时 间 、 对 象 分 配 时 间 、 对 象 访问 时 间 ， 以 及 堆 空 间 被 使 用 的 效率 。 

尽管 一 些 垃 圾 收集 器 保存 对 堆 中 每 个 对 象 引用 次 数 的 计数 器 ， 并 且 把 任何 引用 计数 器 为 零 
的 对 象 认 为 是 垃圾 (Collins 1960) ， 但 是 这 种 引用 计数 收集 器 在 JVM 中 已 相对 不 常见 了 。 大 多 
数 JVM 使 用 前 面 提 到 的 一 般 方法 ， 即 从 一 组 根 引用 开始 ， 然 后 通过 堆 中 的 引用 链 跟踪 以 找 出 所 
有 可 达 的 或 者 是 “活动 的 ”对 象 。 接 着 ， 所 有 不 可 达 的 对 象 被 认为 是 垃圾 并 且 被 重复 利用 。 下 
面 对 垃 圾 收集 器 的 讨论 将 集中 于 跟踪 收集 器 。 


6.3.1 标记 清扫 收集 器 

标记 清扫 收集 器 是 一 个 基本 的 收集 器 ， 它 从 根 引用 开始 并 且 跟 踪 所 有 可 达 的 对 象 ， 在 到 达 
每 个 对 象 时 标记 这 个 对 象 。 标 记 可 以 由 设置 标记 位 组 成 ， 标 记 位 或 者 作为 对 象 实现 的 一 部 分 ， 或 
者 在 一 个 单独 的 位 图 中 ， 位 图 中 的 每 个 位 与 一 个 对 象 相 关联 。 如 果 到 达 一 个 已 被 标记 的 对 象 ， 那 
么 停止 向 下 跟踪 这 个 特殊 的 路 径 。 在 所 有 活 对 象 被 发 现 和 标记 之 后 ， 还 有 一 个 清扫 阶段 ， 其 中 检 
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查 所 有 的 对 象 ， 凡 是 未 被 标记 的 对 象 被 确定 为 垃圾 ， 可 以 被 复 用 。 在 清扫 阶段 ， 当 发 现 无 用 对 象 
时 ， 它 们 可 以 被 组 合成 一 个 自由 对 象 链表 。 

大 体 说 来 ， 这 是 一 种 相对 快速 的 识别 和 收集 垃圾 的 方式 。 然 而 ， 自 由 对 象 是 可 变 大 小 的 并 且 
分 散在 堆 空间 中 ， 并 与 活 对 象 混杂 在 一 起 。 简 单 地 将 自由 对 象 链接 起 来 会 导致 内 在 碎片 问题 。 当 
创建 一 个 新 对 象 并 且 必 须 为 之 找 出 一 个 合适 大 小 的 空闲 空间 时 ， 碎 片 问题 接着 会 导致 效率 非常 
低 。 特 别 地 ， 分 配 算法 必须 查找 链表 以 找 出 适当 大 小 的 连续 空闲 内 存 块 。 最 终 ， 碎 片 数 目 会 越 来 
越 多 以 至 于 需要 紧 压 。 

然而 ， 可 以 通过 使 用 多 个 分 离 的 自由 链表 来 降低 低 效 性 。 亦 即 ， 通 过 将 堆 划 分 成 有 容量 范围 
的 一 组 固定 大 小 的 块 ， 如 从 16 字 节 到 2KB ， 并 把 空闲 空间 维护 在 多 个 链表 中 ， 每 个 链表 适合 于 
一 种 块 大 小 (Comfort 1964) 。 然 后 ， 对 象 分 配器 可 以 简单 地 转 到 一 个 自由 链表 取得 合适 大 小 的 
块 〈( 即 ， 足 以 保存 待 分 配对 象 的 最 小 块 ) 。 这 种 方法 必须 为 偶尔 重新 平衡 每 种 大 小 的 空间 而 提供 
措施 ， 但 是 其 全 局 分 配 效 率 显著 提高 了 。 通 常 ， 动 态 内 存 分 配 是 与 垃圾 收集 紧密 相关 的 。 包 括 分 
离 自 由 链表 的 内 存 分 配 技术 的 一 篇 极 好 的 综述 是 Wilson 等 人 写 的 。(1995 ) 

在 概念 上 改善 分 配 效 率 的 最 简单 的 方法 是 将 所 有 的 无 用 空间 合并 为 一 个 大 的 连续 区 域 ， 从 
中 可 以 创建 新 的 对 象 。 有 两 种 合并 无 用 空间 的 方式 : 通过 紧 压 或 者 通过 复制 。 这 些 在 下 两 小 节 中 
讨论 。 
6.3.2 KEKE 


紧 压 收集 器 ， 像 它 的 名 字 瞳 示 的 那样 ， 本 质 上 将 活动 对 象 “ 滑 动 ”到 堆 内 存 区 域 的 底部 
(或 顶部 ) ， 使 得 所 有 活动 的 对 象 都 是 相 邻 的 。 所 剩 下 的 就 是 一 个 连续 的 自由 空间 区 域 。 例 如 ， 
图 6-6 说 明了 带 有 活动 对 象 ( 深 灰色 阴影 ) 和 垃圾 对 象 ( 浅 灰 色 阴 影 ) 的 内 存 的 内 容 。 在 紧 压 
过 程 中 ， 活 动 的 对 象 被 移 到 堆 的 一 个 连续 区 域 中 (在 这 个 例子 中 在 底部 ) ， 而 未 被 使 用 的 空间 也 
变 成 一 个 连续 的 区 域 ， 从 中 可 以 分 配 新 的 对 象 。 

尽管 在 概念 上 简单 ， 紧 压 收 集 器 还 是 相对 缓慢 的 ， | Sa 
因为 它 多 次 遍历 整个 堆 。 一 遍 是 做 标记 ， 随 后 的 遍 是 
为 活动 的 对 象 计算 新 的 位 置 ， 移 动 对 象 ， 并 且 更 新 指 
向 新 位 置 的 引用 。 其 他 方法 简 而 言 之 都 是 通过 减少 遍 
的 次 数 和 /或 在 每 次 收集 步 过 程 中 只 分 析 堆 的 一 个 子 
集 来 提高 效率 。 

紧 压 回收 也 突出 了 一 个 问题 ， 它 与 任何 在 内 存 中 
移动 对 象 的 方案 同时 出 现 ， 而 移动 对 象 是 垃圾 收集 的 
一 部 分 。 亦 即 ， 当 移动 对 象 时 ， 必 须 改变 对 象 的 引用 ， 
这 使 整个 过 程 复 杂 化 〈 和 减 慢 ) 了 。 不 过 ， 为 了 减少 
引用 更 新 的 数目 ， 一 些 系统 使 用 句柄 池 (handle pool) 
来 合并 指向 每 个 单独 对 象 的 指针 。 然 后 一 个 对 象 的 引 
用 指向 句柄 池 中 相关 的 指针 ， 见 图 6-7。 利 用 句柄 池 ， 
当 移 动 对 象 时 ， 就 没有 必要 找到 并 更 新 所 有 的 对 象 引 
用 ; 而 是 只 必须 改变 句柄 池 中 的 指针 ， 于 是 在 这 个 过 
程 中 就 自动 修改 了 所 有 的 引用 。 这 种 方法 的 最 大 缺点 
是 每 个 对 象 访问 包括 一 个 额外 的 间接 层 。 图 6-6 垃圾 紧 压 的 例子 
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图 6-7 句柄 池 。 在 垃圾 收集 过 程 中 移动 一 个 对 象 时 ， 使 用 一 个 间接 层 (通过 句柄 ) 可 以 简化 指针 更 新 
6. 3.3 复制 收集 器 


为 了 减少 在 收集 过 程 中 遍历 堆 的 次 数 ， 复 制 收集 器 用 内 存 空 间 来 换取 收集 时 间 。 它 把 堆 划分 成 
两 半 。 在 任何 时 刻 ， 一 半 是 未 使 用 的 而 另 一 半 则 包含 活动 的 堆 。 当 活动 的 一 半 被 填 满 时 ， 收 集 器 就 
像 它 在 标记 阶段 中 所 做 的 那样 遍历 这 个 堆 ; 不 过 它 将 清扫 与 标记 阶段 相 结合 。 当 它 找 到 一 个 活动 对 
象 时 ， 它 立即 将 这 个 对 象 移动 到 堆 中 未 使 用 的 一 半 ， 并 且 继 续 遍 历 堆 。 当 完成 对 堆 的 遍历 时 ， 活 动 
对 象 放 在 以 前 未 使 用 的 那 一 半 的 连续 空间 上 ， 这 第 二 半 的 剩余 部 分 是 空闲 的 ， 而 堆 的 第 一 半 〈 即 以 
前 是 活动 的 ) 就 变 成 未 使 用 的 了 。 复 制 收集 器 在 图 6-8 中 说 明 。 复 制 收集 器 比 紧 压 收集 器 快 ， 但 是 
它 也 有 和 较 高 的 内 存 需 求 ， 因 为 根据 定义 ， 堆 空间 的 一 半 在 任何 给 定时 间 内 都 是 未 使 用 的 。 








图 6-8 通过 复制 的 垃圾 收集 器 例子 
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6.3.4 分 代 收 集 器 


紧 压 和 复制 收集 器 在 每 次 执行 收集 时 ， 都 要 移动 非常 大 的 一 部 分 动态 对 象 。 一 个 长 期 活动 
的 对 象 在 它 的 生存 期 内 会 被 移动 许多 次 ; 通过 观察 到 对 象 的 生存 期 有 双 峰 的 分 布 ， 可 以 避免 这 
种 相当 浪费 的 移动 。 首 先 ， 许 多 对 象 的 生存 期 非常 短 ; 这 经 常 是 好 的 面向 对 象 编程 实践 的 副 产 
品 。 其 次 ， 不 具有 短 生 存 期 的 对 象 趋向 于 有 非常 长 的 生存 期 。 因 此 ， 为 了 避免 反复 复制 长 期 活动 
的 对 象 ， 分 代 的 垃圾 收集 器 试图 根据 对 象 的 年 龄 将 对 象 分 组 。 

在 基本 的 分 代 收 集 器 中 ， 堆 被 划分 成 子 堆 。 为 简便 起 见 ， 我 们 用 两 个 子 堆 来 描述 这 个 实现 ， 
但 是 这 些 可 以 直接 推广 到 多 个 子 堆 。 在 两 个 子 堆 中 ， 一 个 将 保存 较 老 的 或 者 长 期 使 用 的 《ten- 
ured) 对 象 ， 称 为 “ 老 ” 区 ;， 另 一 个 则 保存 新 创建 对 象 ， 称 为 “年 轻 ” 区 (nursery), “EH” 
区 要 比 “ 老 ”区 更 频繁 地 执行 垃圾 收集 。 如 果 一 个 对 象 在 若干 次 (通常 很 小 ) 收集 后 仍 幸存 于 
“年 轻 ” 区 中 ， 它 就 被 移 到 “ 老 ” 区 中 。 从 而 ， 长 期 活动 的 对 象 最 终 将 被 放 入 到 堆 的 “ 老 ” 区 
中 ， 在 那里 垃圾 收集 是 很 少 发 生 的 ， 这 样 就 避免 了 不 必要 的 对 象 移动 。 

分 代 收 集 器 不 但 降低 了 收集 的 整个 开销 ， 而 且 在 每 次 调用 收集 器 时 只 对 一 小 部 分 堆 进 行 收 
集 。 这 意味 着 如 果 当 收集 发 生 时 暂停 运行 的 进程 ， 则 可 以 大 大 降低 “和 暂停” 时间。 使 用 一 个 大 
堆 以 及 传统 的 紧 压 或 复制 收集 器 ,用 户 是 很 容易 察觉 到 程序 因 收 集 而 被 暂停 的 时 间 。 

在 分 代 收集 器 中 ， 两 个 子 堆 不 必 按 相同 的 方式 来 管理 。 实 际 上 ， 它们 可 以 按 不 同 的 方式 来 管 
理 以 很 好 地 使 用 性 能 折衷 。Jikes RVM 项 目 (Attanasio 等 2001) 中 的 一 个 具体 的 混合 算法 是 在 
“年 经 ”区 使 用 复制 收集 器 ， 使 得 快速 分 配 新 对 象 ; 而 在 “ 老 ” 区 使 用 标记 清扫 收集 器 ， 使 得 通 
过 消除 指针 更 新 而 降低 收集 时 间 。 


6.3.5 增 量 收集 器 和 并 发 收集 器 


上 述 所 有 的 基本 收集 器 在 执行 收集 时 都 会 暂停 程序 执行 ， 然 后 再 将 控制 归还 给 程序 。 收 集 
是 消耗 时 间 的 〈 即 使 是 用 分 代 收 集 器 ) ， 因 此 当 收 集 器 工作 时 程序 的 执行 会 暂停 一 定量 的 时 间 。 
如 果 收 集 是 随 程 序 的 运行 增 量 地 进行 ， 而 不 是 一 次 性 完成 ， 那 么 收集 时 间 是 可 以 被 分 挫 的 。 此 
外 ,在 实时 应 用 中 ， 垃 圾 收集 时 间 会 被 限制 以 提供 足够 的 响应 延迟 。 如 果 有 多 个 处 理 器 可 用 ， 则 
采取 下 面 的 做 法 会 是 有 益 的 ， 即 用 一 个 线程 并 发 地 收集 垃圾 ， 而 使 用 其 他 进程 继续 进行 正常 的 
程序 执行 。 在 两 种 情况 下 ， 当 程序 运行 时 被 部 分 收集 的 堆 可 能 处 于 波动 状态 。 这 暗示 着 在 运行 的 
程序 和 垃圾 收集 器 之 间 必 须 有 某 种 同步 ， 因 此 当 一 个 对 象 正 被 移动 时 ， 即 当 指针 可 能 暂时 不 一 
致 时 ， 程 序 不 会 试图 引用 这 个 对 象 。 否 则 ， 在 收集 器 正 跟 踪 一 条 引用 路 径 时 ， 如 果 程 序 改 变 这 个 
引用 ， 就 会 导致 类 似 的 同步 问题 。 

许多 传统 的 停止 -收集 方法 可 以 转换 成 增 量 的 版 本 。 关 于 并 发 或 增 量 收集 的 一 个 基本 问题 是 
在 任何 给 定时 间 内 ， 一 个 对 象 可 能 已 经 被 扫描 并 标记 。 然 后 收集 仍 在 进行 中 ， 已 经 扫描 过 的 对 象 
中 的 引用 可 以 被 改变 以 指向 还 没有 被 标记 的 对 象 。 如 图 6-9 中 的 例子 。 在 这 个 例子 里 ， 对 象 A 和 
B 已 经 被 标记 过 了 (如 粗 长 方形 指示 的 那样 ) ， 其 他 对 象 还 没有 被 标记 。 接 着 在 它们 可 以 被 标记 
之 前 ， 指 向 对 象 B 的 指针 被 指向 对 象 D 的 指针 替代 。 如 果 这 是 指向 D 的 唯一 指针 ， 那 么 DD 可 能 
从 来 没有 被 标记 过 并 且 将 作为 垃圾 而 被 错误 地 丢弃 掉 。 对 象 B 也 可 能 被 错误 地 保留 ， 但 是 这 不 
是 问题 ; 它 将 在 下 一 遍 垃 圾 收集 中 被 收集 。 

这 个 问题 有 许多 解决 办 法 ; 它们 都 在 运行 的 应 用 〈 可 能 改变 堆 的 内 容 ) 和 收集 器 之 间 提 供 
了 某 种 形式 的 同步 。 通 常 的 解决 办 法 之 一 是 为 对 已 经 标记 过 的 对 象 的 引用 提供 写 路 障 (write bar- 
riers) 。 这 些 写 路 障 主 要 检查 重 写 一 个 已 经 标记 过 的 对 象 中 的 指针 的 情况 。 当 这 种 情况 发 生 时 ， 
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标记 所 指向 的 对 象 (并 且 放 和 人 对象 队列 中 ， 随 着 标记 的 进行 它们 的 指针 应 该 被 监视 ) 。 





图 6-9 并 发 垃圾 收集 的 问题 。 在 一 个 对 象 中 的 引用 在 对 象 被 标记 后 可 以 被 修改 
6.3.6 发 现 根 集 


像 这 一 节 开 始 时 陈述 的 那样 ， 在 开始 垃圾 收集 之 前 有 必要 识别 根 指针 。Java 程序 的 根 集 
(对 CLI 是 类 似 的 ) 由 保存 在 栈 中 、 常 量 池 以 及 包含 在 静态 对 象 内 的 引用 组 成 。 不 过 ， 这 是 所 谓 
的 “结构 化 的 ” 根 集 。 在 一 个 特定 虚拟 机 实现 中 ， 实 际 的 指针 可 能 位 于 寄存 器 和 不 同 的 与 实现 
有 关 的 运行 时 内 存单 元 中 。 例 如 ， 结 构 化 的 栈 元 素 可 以 被 动态 编译 器 分 配 到 寄存 器 ， 而 其 中 一 些 
可 以 被 溢出 到 内 存 中 。 

因此 ， 在 垃圾 收集 被 调用 时 ， 有 必要 从 可 能 保存 根 集 指针 的 实现 存储 单元 上 构造 结构 化 的 
根 集 。 找 到 根 集 的 基本 解决 办 法 是 为 编译 /优化 系统 保持 索引 表 或 者 上 映射， 它们 标识 在 哪儿 可 以 
找到 结构 化 的 根 集 元 素 ， 如 果 垃 圾 收集 需要 的 话 。 这 种 解决 办 法 需要 虚拟 机 运行 时 软件 和 编译 
器 在 执行 动态 编译 和 优化 时 跟踪 结构 化 的 根 值 〈Stichnoth Lueh 和 Cuerniak 1999) 。 

上 述 方法 被 称 为 类 型 正确 的 或 者 精确 的 ， 因 为 它 使 用 精确 的 根 集 作为 起 点 。 一 个 不 太保 守 的 解 
决 办 法 是 获得 所 有 可 能 保存 根 指针 的 实现 寄存 器 和 内 存单 元 ， 并且 假 设 它们 确实 保存 了 根 指针 
(Boehm 和 Weiser 1988) 。 这 些 将 形成 真实 根 集 的 一 个 超 集 ， 其 中 的 一 些 可 能 在 思考 后 被 排除 〈 如 ， 
如 果 它 们 保存 小 整数 值 则 明显 不 是 内 存 地 址 )。 然 后 ， 垃 圾 收集 器 从 这 个 根 超 集 开始 。 这 种 方法 使 
编译 /优化 系统 免除 了 跟踪 根 集 引用 ， 并 且 节 省 了 用 于 在 所 有 潜在 的 垃圾 收集 点 跟踪 这 些 映射 的 运 
行 时 索引 表 空 间 。 可 是 这 种 超 集 方法 的 一 个 问题 是 : 不 能 使 用 移动 对 象 的 垃圾 收集 器 ， 如 紧 压 收 
集 器 ， 因 为 内 存 区 域 在 它 不 是 真 的 对 象 时 可 以 被 识别 为 一 个 给 定 类 型 的 对 象 。 如 果 移 动 这 样 一 
个 表面 上 的 “对 象 " ， 它 将 破坏 任何 在 自己 的 内 存 区 中 含有 这 个 表面 对 象 的 真正 的 对 象 。 


6.3.7 垃圾 收集 小 结 


没有 一 个 收集 器 在 所 有 的 程序 上 都 工作 得 最 好 ， 因 为 程序 在 工作 集 大 小 、 对 象 大 小 、 堆 大 小 
以 及 对 象 被 创建 (和 释放 ) 的 速度 上 都 有 所 不 同 。 因 此 ， 我 们 不 能 得 出 一 个 关于 “最 好 的 ” 收 
集 器 所 必须 遵守 的 结论 〈 像 数 百 篇 关于 这 个 主题 的 论文 中 证 明 的 那样 ) 。 然 而 ， 我 们 可 以 概括 地 
小 结 重要 的 性 能 折衷 。 表 6-1 根据 (1) 收集 时 间 、(2) 对 象 分 配 时 间 、(3) 对 象 访问 时 间 以 及 
(4) 内 存 效率 〈 即 可 以 维持 给 定 大 小 的 工作 集 的 相对 的 整个 堆 空 间 ) 定性 地 比较 了 主要 的 收集 
器 种 类 。 除 了 这 些 标准 ， 所 有 的 “移动 ”收集 器 ， 即 紧 压 和 复制 收集 器 ， 需 要 一 个 精确 的 根 集 
合 ， 如 前 面 强调 的 那样 。 

分 代 收 集 器 的 使 用 是 一 个 有 些 正 交 的 考虑 ， 因 为 分 代 收集 器 可 以 利用 任何 基本 的 方法 (或 
者 混合 的 方法 ) 来 使 用 。 分 代 收 集 器 的 优点 是 通过 只 关注 那些 垃圾 最 可 能 被 发 现 的 地 方 (“年 
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轻 ” 区 ) 中 的 对 象 来 降低 收集 时 间 。 现 在 ， 分 代 收 集 器 常 被 认为 是 一 个 成 功 的 决策 。 在 Jikes 
JVM (Attanasio 等 2001) 中 垃圾 收集 的 一 项 研究 描述 了 关于 特定 基准 程序 的 性 能 折衷 。 


表 6-{1 基本 垃圾 收集 器 的 比较 



































收集 器 | 接收 时 间 | 对 象 分 配 时 间 | 对 象 访问 时 间 评价 

标记 清扫 收集 器 | 好 x 好 中 等 “| 。 分 可 时 要 求 查 技 适 当 大 小 的 空 亲 内 存 所 

= “下 -f mey J r 

标记 清扫 收集 器 | p 了 5 ay | ”多 尺 二 对 内 存 效率 的 好 处 比 对 分 配 时 
(Rt) | 由 | 间 的 好 处 更 大 

TERRE ž 好 好 好 | 。 需要 做 多 遍 收 集 
a 中 等 # 差 | 由 于 存在 未 用 的 空间 ， 内 存 效率 很 差 

4 
1 

复制 收集 器 《不 必须 建立 指针 并 对 所 有 移动 的 对 象 的 

带 handles) 中 等 到 差 好 a | = | 进行 更 新 


6.4 Java 本 地 接口 


如 5.3.6 WTB, Java 本 地 接口 (JINI) 是 一 种 允许 Java 程序 和 本 地 编译 程序 互 操作 的 方 
式 。 实 现 JNI 时 的 需 着 重 考虑 是 以 一 种 安全 的 方式 访问 Java 的 数据 结构 ， 亦 即 ， 以 一 种 方式 来 维 
持 Java 对 象 和 栈 的 完整 性 。 

从 Java 程序 的 角度 ， 一 个 对 本 地 方法 的 调用 在 某 些 方面 与 执行 一 条 单独 的 〈 非 常 复杂 ) 指 
令 相 似 : 有 参数 和 一 个 返回 值 ， 但 是 被 调用 的 本 地 方法 不 使 用 Java 栈 ， 而 是 使 用 自己 的 平台 依 
赖 的 栈 。 这 个 本 地 栈 的 管理 必须 通过 可 信任 的 JVM 代码 来 实现 。JVM 实现 支持 Java 栈 和 本 地 
栈 ， 每 个 Java 线程 带 一 个 本 地 栈 ( 见 图 6-10)。 当 有 一 个 对 本 地 方法 的 调用 时 ， 被 VM 截获 ， 
JVM 之 后 建立 本 地 栈 帧 、 传 递 参数 ， 接 着 将 控制 转移 到 被 调用 的 方法 。 类 似 地 ， 在 返回 时 ， 
JVM 将 一 个 结果 放 入 Java 栈 帧 中 并 且 将 控制 归还 给 仿真 。 在 TNI 中 ， 本 地 方法 可 以 “回调 ”一 
个 Java 方 法 ; 此 时 ， 会 把 一 个 Java 栈 帧 放 在 正 调 用 的 本 地 方法 的 栈 帧 中 。 
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图 6-10 Java 和 本 地 栈 。 在 一 个 虚拟 机 实现 中 ， 本 地 库 栈 与 结构 化 的 虚拟 机 栈 被 分 开 管 理 
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本 地 方法 可 以 通过 INI 访问 对 象 和 数组 。 然 而 ， 一旦 本 地 方法 有 一 个 数组 或 对 象 的 引用 ， 这 
个 数组 或 对 象 必须 受 垃圾 收集 的 保护 。 亦 即 ， 本 地 方法 假设 这 个 对 象 在 一 个 特殊 的 内 存单 元 ， 移 
动 对 象 的 垃圾 收集 器 会 违反 这 个 假设 。 即 使 对 不 移动 的 收集 器 ， 如 果 本 地 方法 恰好 在 某 一 点 有 
唯一 的 引用 ,那么 垃圾 收集 器 可 以 尝试 回收 它 (因为 这 个 引用 不 会 在 垃圾 收集 器 的 常规 根 集 
中 )。 为 了 避免 这 种 情况 发 生 ，JNI 方 法 不 仅 传 送 给 本 地 方法 一 个 引用 ， 也 会 “ 钉 住 ” 这 个 被 引 
用 的 对 象 ， 以 便 它 不 会 被 移动 或 者 被 回收 。 利 用 一 个 不 移动 的 收集 器 ，JVM 也 可 以 将 这 个 引用 
添加 到 根 集中 。 


6.5 基本 仿真 


JVM 中 的 仿真 引擎 可 以 通过 许多 方式 来 实现 ， 具 有 不 同 的 复杂 性 和 性 能 级 别 。 最 简单 的 方法 
是 使 用 对 字 节 码 指 令 的 直接 解释 。 通 常 ， 与 第 2 章 详细 描述 的 传统 ISA 的 解释 没有 什么 区 别 。 一 个 
更 高 级 的 并 且 被 普遍 使 用 的 仿真 方法 是 执行 即时 (JIT) 编译 (Tabatabai 等 1998; Aycok 2003)。 利 
用 JIT 编译 器 ， 方 法 在 第 一 次 被 调用 时 编译 ， 即 为 了 执行 而 “即时 ”。 这 种 编译 实质 上 执行 了 从 字 
节 码 指令 到 本 地 主机 指令 的 翻译 。 一 次 一 个 方法 的 JIT 编译 是 可 能 的 ， 因 为 与 传统 ISA 相反 ，Java 
ISA 的 设计 是 为 了 使 方法 中 的 所 有 指令 能 在 第 一 次 进入 这 个 方法 时 被 容易 地 发 现 。 

JIT 编译 器 和 在 本 书 先前 讨论 的 二 进 制 翻译 器 紧密 相关 ， 并 且 可 能 容易 被 称 为 IT“ 翻译 
器 " 。 实 际 上 ， 一 个 称 为 “编译 器 ”而 另 一 个 称 为 “翻译 器 ”的 理由 似乎 是 由 两 个 不 同 组 的 人 起 
的 名 字 。JIT 编译 器 与 传统 编译 器 的 不 同 在 于 ， 它 没有 解析 一 个 高 级 语言 程序 并 在 将 它 转化 为 中 
间 形 式 之 前 进行 语法 检查 的 前 端 。 已 经 通过 加 载 器 的 字 节 码 程序 被 认为 是 语法 正确 的 。 尽 管 大 
多 数 JIT 编译 器 在 进行 优化 之 前 会 将 字 节 码 指令 转化 为 一 种 不 同 的 中 间 形 式 ， 字 节 码 指令 本 身 实 
质 上 仍 是 一 种 中 间 表 示 。 

动态 的 运行 时 编译 器 可 以 执行 大 多 数 (如果 不 是 全 部 ) 被 经 典 的 静态 编译 器 所 执行 的 优化 ， 
以 及 其 他 与 Java 程序 有 关 的 优化 。 然 而 ,许多 优化 是 消耗 时 间 的 ， 这 增加 了 执行 一 个 Java 程序 
的 运行 时 开销 。 因 此 ，JIT 编译 器 会 包括 多 个 优化 级 别 ， 最 复杂 的 优化 被 应 用 于 频繁 执行 的 方 
法 。 这 导致 了 一 种 应 用 在 方法 层 的 分 阶段 优化 的 形式 。 一 种 更 加 高 效 的 策略 是 将 优化 选择 性 地 
只 应 用 于 频繁 使 用 的 代码 区 域 ， 而 不 是 可 能 包含 这 种 区 域 的 整个 方法 。 . 

典型 的 高 性 能 仿真 引擎 从 解释 开始 ， 并 附加 上 用 来 定位 频繁 使 用 的 方法 的 剖析 过 程 。 然 后 
当 一 个 给 定 方法 达到 使 用 门限 时 ， 这 个 方法 用 最 小 的 优化 来 编译 。 稍 后 ， 依 赖 于 使 用 的 级 别 ， 热 
点 方法 内 被 选 定 的 代码 段 被 进一步 优化 。Sun HotSpot (Meloan 1999; Paleczny, Vick 和 Click 
2001) LAR IBM DK (Suganuma 等 2000) 都 遵循 这 个 全 局 策略 。 某 些 系 统 跳 过 了 初始 解释 阶段 
以 支持 简单 编译 ; 例如 ， 这 种 方法 在 Jikes RVM 中 被 采用 〈 稍 后 会 详细 描述 ) 。 下 一 节 将 更 完整 
地 讨论 高 级 语言 虚拟 机 中 的 动态 优化 。 


6.6 高 性 能 仿真 


正如 大 多 数 其 他 虚拟 机 应 用 那样 ， 在 高 级 语言 虚拟 机 中 性 能 是 一 个 重要 的 考虑 因素 。 当 处 
理 高 级 语言 虚拟 机 时 有 两 个 挑战 。 第 一 个 与 其 他 动态 优化 虚拟 机 相同 : 用 改善 程序 执行 时 间 来 
弥补 运行 时 优化 的 开销 。 第 二 个 挑战 是 使 面向 对 象 程序 快速 地 执行 。 面 向 对 象 程序 通常 包括 频 
繁 使 用 对 指令 和 数据 的 间接 寻 址 ， 以 及 频繁 使 用 小 方法 〈( 它 有 较 高 的 方法 调用 开销 ) 。 在 这 一 节 
中 ， 我 们 将 讨论 高 级 语言 虚拟 机 的 优化 技术 。 这 些 将 在 Java 上 下 文中 ,使 用 Java 例子 来 讨论 ， 
但 是 类 似 的 技术 可 以 一 样 用 到 CLR， 例 如 ， 运 行 CHEF. 

我 们 先 从 对 高 性 能 高 级 语言 仿真 引擎 的 全 局 框架 的 简要 讨论 开始 ， 接 着 描述 可 以 被 一 个 运 
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行 时 编译 器 和 虚拟 机 运行 时 系统 执行 的 优化 。Amold 等 (2005) 给 出 了 包含 大 量 参考 文献 的 对 
自 适应 优化 的 氢 述 。 


6.6.1 优化 框架 


图 6-11 中 给 出 了 一 个 动态 优化 框架 的 一 般 流 程 。 这 个 流程 看 起 来 很 熟悉 ， 它 与 第 4 章 讨论 
的 进程 虚拟 机 中 动态 二 进 制 优化 所 使 用 的 流程 相 类 似 。 许 多 相同 的 原则 被 保留 ， 因 此 这 里 不 详 
细 讨 论 了 。 这 个 框架 支持 从 简单 的 解释 进展 到 连续 的 高 级 别 的 编译 ， 这 依赖 于 代码 眉 ( 即 方法 ) 
被 执行 的 频率 。 在 某 些 方案 下 ， 解 释 阶 段 可 以 被 跳 过 ， 并 且 优 化 的 层 数 也 因 特 定 的 实现 而 不 同 。 

剖析 是 整个 优化 策略 的 一 个 重要 部 分 。 剖 析 数 据 可 以 由 解释 器 收集 ， 或 者 在 编译 的 代码 执 
行 时 由 代码 提供 。 可 以 使 用 4. 3 节 中 描述 的 揪 桩 (instrumentation) 和 采样 技术 。 经 常 的 ， 剖 析 
是 在 方法 级 实现 的 ， 而 不 是 像 第 4 章 那样 在 基本 块 级 实现 。 我 们 可 以 构造 一 个 调用 图 ， 它 类 似 于 
控制 流 图 ， 它 用 方法 作为 结 点 而 张 连 接 了 调用 和 被 调用 结 点 。 稍 后 图 6-12 将 给 出 一 个 例子 。 





图 6-11 一 个 典型 的 动态 优化 框架 


至 少 ， 剖 析 数 据 应 该 跟踪 方法 的 使 用 ， 如 调用 图 中 的 结 点 数 。 当 达到 一 个 方法 使 用 门限 时 
《或 者 由 某 个 更 复杂 的 成 本 效益 分 析 来 指明 要 求 ) ， 下 一 层 优 化 会 应 用 于 这 个 “ 热 ”方法 。 其 他 
剖析 信息 可 以 跟踪 调用 图 中 边 的 数量 以 指导 方法 内 联 ， 或 者 传统 的 边 剖 析 可 以 用 于 代码 布局 优 
化 。 最 后 ， 可 以 剖析 动态 数据 和 指针 信息 来 生成 一 些 特别 的 优化 代码 ， 这 些 优化 代码 利用 代码 区 
内 极其 频繁 出 现 的 值 和 /或 数据 类 型 。 

编译 器 可 以 提供 一 系列 的 优化 ， 其 中 一 些 被 应 用 在 相对 低 的 层次 上 ， 如 包括 元 余子 表达 式 消除 
或 者 强度 削弱 。 其 他 优化 重 调和 限定 代码 。 某 些 优化 是 针对 面向 对 象 范例 的 ， 而 其 他 的 则 更 加 一 
般 。 最 后 ， 某 些 优化 直接 通过 以 字 节 码 程序 为 输入 的 编译 器 来 执行 。 其 他 的 优化 则 在 编译 器 之 外 被 
运行 时 系统 动态 地 执行 。 后 者 可 以 支持 垃圾 收集 或 者 增强 数据 的 局 部 性 ， 例 如 通过 重组 堆 对 象 。 在 
下 一 节 中 ,我 们 讨论 一 些 较 重要 的 优化 技术 ， 包 括 基 于 编译 的 优化 和 基于 运行 时 的 优化 。 


6.6.2 优化 


代码 重 排 

正如 第 4 章 讨 论 过 的 动态 二 进 制 代码 优化 ， 当 代码 重 排 被 应 用 于 高 级 语言 虚拟 机 的 上 下 文 
时 ， 它 是 一 个 简单 且 非 常 有 效 的 优化 。 图 4-19 说 明了 代码 重 排 。 大 多 数 代码 重 排 算 法 “平整 * 
代码 ， 使 得 沿 着 最 常 走 的 控制 流 路 径 的 基本 块 是 在 内 存 中 连续 的 位 置 上 (Pettis 和 Hansen 1990) 。 








782 FOF 








其 好 处 是 更 加 高 效 地 取 指 ， 这 是 由 于 提高 了 时 间 和 空间 局 部 性 ， 并 且 改 进 了 条 件 分 支 的 可 预测 
性 。 代 码 重 排 在 所 有 的 优化 中 经 常 提供 一 个 较 高 性 能 的 收益 。 

方法 内 联 

方法 内 联 在 4. 3. 1 节 中 被 称 为 过 程 内 联 。 通 过 内 联 ， 一 个 方法 调用 被 蔡 换 为 这 个 方法 中 的 实际 
代码 ; 即 ， 方 法 代码 被 “内 联 ” 放 到 主 调 代 码 (Suganuma，Yasue 和 Nakatani 2002) 中 。 方法 内 联 
省 去 了 传递 参数 、 管 理 栈 幢 以 及 实际 的 控制 转移 (如 ， 一 个 跳 转 和 返回 ) 等 开销 ， 而 这 可 能 以 较 大 
的 二 进 制程 序 映像 为 代价 。 面 向 对 象 编程 往往 鼓励 使 用 许多 小 的 方法 ， 因 此 通过 避免 所 有 这 种 代 
码 ， 即 与 一 个 方法 调用 关联 的 调用 序列 ， 经 常 可 以 显著 地 改善 性 能 。 内 联 的 另 一 个 重要 的 好 处 是 
它 增 大 了 稍 后 代码 分 析 和 优化 可 以 发 生 的 范围 ; 如 ， 分 析 可 以 对 在 被 优化 的 方法 外 部 的 潜在 数 
据 访问 做 出 不 太保 守 的 假设 。 内 联 那些 本 身 代 码 的 大 小 比方 法 调用 序列 还 要 小 的 小 方法 ， 几 乎 
总 是 有 收益 的 。 当 被 内 联 时 ， 这 种 小 方法 不 但 会 更 快 地 执行 ， 而 且 还 会 比 起 初 的 〈 没 有 内 联 的 ) 
代码 消耗 更 少 的 指令 空间 ， 这 使 得 指令 cache 的 行为 得 到 改进 〈 或 者 至 少 没 有 退化 ) 。 

对 于 较 大 的 方法 ， 内 联 的 好 处 被 削弱 了 ， 因 为 调用 序列 在 整个 执行 时 间 中 占 的 百分比 较 小 ， 而 
且 整 个 代码 尺寸 (和 指令 cache 需求 ) 会 增长 。 如 果 不 选 择 性 地 应 用 ， 内 联 较 大 的 方法 ， 尤 其 是 那 
些 从 许多 不 同位 置 被 调用 的 方法 ， 就 可 能 导致 代码 爆炸 〈code explosion) , ， 使 得 cache 行为 较 差 而 
且 性 能 受 损 。 因 此 ， 为 了 在 中 等 及 大 的 方法 上 应 用 内 联 ， 需 要 某 种 成 本 效益 分 析 ， 而 成 本 效益 的 关 
系 是 相当 复杂 的 。 在 代码 爆炸 方面 的 代价 可 以 相对 容易 地 被 消除 ， 但 是 怎么 把 这 个 转化 成 性 能 代价 
是 比较 复杂 的 ， 通常 是 由 离线 实验 来 得 到 一 个 规划 函数 。 效 益 主要 是 方法 大 小 和 方法 被 调用 频率 的 
一 个 函数 ， 亦 即 ， 最 经 常 被 调用 的 方法 将 导致 最 大 的 效益 并 且 是 内 联 的 主要 候选 者 。 

为 了 确定 方法 调用 的 频率 ,通常 的 技术 是 在 方法 调用 位 置 安插 计数 器 以 收集 调用 者 - 被 调 
用 者 对 的 剖析 。 在 某 些 时 间 间 隔 内 (也 许 是 固定 的 时 间 间 隔 或 者 当 某 个 剖析 计数 器 超过 门限 )， 
优化 系统 可 以 构建 一 个 调用 图 ， 它 的 边 标注 有 调用 (方法 调用 ) 频率 。 调 用 图 的 一 个 例子 在 图 
6-12a 中 给 出 。 在 这 幅 图 中 ，main 方法 调用 方法 A 和 X; 方法 A 调用 方法 B 和 C， 而 方法 和 调用 
方法 C 和 YY。 调 用 图 的 边 用 在 采样 间隔 期 间 的 调用 次 数 来 标注 。 例 如 ， 在 图 6-12 +, 方法 C 已 
经 被 方法 A 调用 了 1500 次 而 且 被 方法 X 调用 了 25 次 。 在 构造 和 维护 了 这 样 一 个 被 标注 的 图 以 
后 ,动态 优化 系统 就 可 以 分 析 这 张 图 以 确定 哪些 方法 应 该 被 内 联 。 





a) 利用 调用 图 b) 通过 栈 帧 
图 6-12 跟踪 方法 调用 

然后 ， 可 以 为 触发 内 联 分 析 定 义 一 个 “启动 ”门限 ， 如 1$00; 亦 即 ， 当 调用 图 中 的 一 条 边 
被 经 过 第 1500 次 时 ， 就 调用 动态 优化 系统 。 在 分 析 过 程 中 ， 可 以 内 联 除 了 触发 这 个 分 析 的 方法 
以 外 的 其 他 方法 ， 这 取决 于 成 本 效益 分 析 ; 如 ， 一 个 小 方法 比 一 个 较 大 的 更 可 能 被 内 联 ， 即 使 在 
调用 图 中 它们 都 有 相同 的 调用 计数 。 在 这 个 例子 中 ， 可 以 确定 方法 C 应 该 被 内 联 到 方法 A 中 ， 
而 A 因 该 被 内 联 到 main 中 ， 因 此 main, A 和 C 全 被 合并 到 一 起 。 同 样 ， 可 以 确定 方法 Y 应 该 被 
ARE X 中。 
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这 种 全 部 内 联 的 方法 是 好 的 ， 但 是 它 需 要 构造 调用 图 ， 并 且 常 包括 对 调用 图 的 某 种 全 面 
分 析 。 避 免 构造 调用 图 和 全 面 分 析 的 比较 简单 的 技术 是 ， 等 待 直到 一 个 剖析 计数 器 达到 启动 
门限 ， 然 后 逆向 “ 走 记 ”整个 栈 以 观察 什么 是 调用 图 的 当前 高 效 活跃 的 部 分 (Hélzle 和 Ungar 
1996 ) 。 在 我 们 的 例子 中 ， 在 到 达 启 动 门限 1500 时 ， 栈 如 图 6-12b 所 示 。 章 析 计 数 被 包含 在 它 
们 关联 的 栈 巾 中， 尽管 它们 也 可 以 保存 在 一 个 远离 边 的 表 中 。 无 论 如 何 ， 走 遍 这 个 栈 都 可 以 
像 前 面 一 样 确定 内 联 B 和 A。 尽管 这 种 技术 使 用 一 个 非常 有 限 的 调用 图 视图 ， 不 过 它 却 是 高 
效 的。 在 这 个 例子 中 ,方法 YY 没有 像 以 前 一 样 被 内 联 ,， 但 是 如 果 义 到 YY 的 调用 次 数 稍 后 达到 
启动 门限 ， 则 那 时 就 可 能 被 内 联 。 

优化 虚拟 方法 调用 

通常 ， 内 联 可 以 很 容易 地 应 用 于 静态 方法 和 被 程序 员 声 明 为 final 方法 的 方法 。 当 从 给 定 的 
调用 点 (如 ， 通 过 invokestatic 指令 ) 调用 这 些 方法 之 一 时 ， 被 调用 的 方法 代码 决 不 会 改变 。 因 
此 ， 一 且 在 这 些 方法 中 的 一 个 上 执行 内 联 时 ， 被 内 联 的 代码 将 总 是 正确 的 代码 。 

然而 在 面向 对 象 语言 中 ,许多 方法 不 是 静态 的 或 者 是 find 的 ， 即 与 动态 类 相关 联 的 方法 。 
由 于 类 层次 和 由 此 产生 的 多 态 ， 被 一 个 虚拟 方法 调用 执行 的 实际 代码 可 能 改变 ， 这 依赖 于 被 引 
用 对 象 的 具体 子 类 。 回 到 前 一 章 (图 5-5) 给 出 的 例子 ， 如 果 perimeter 方法 被 应 用 到 一 个 Rec- 
tangle 对 象 ， 则 调用 Rectangle 版 本 的 perimeter 方法 代码 ; 在 Square 情况 下 ， 则 调用 不 同 的 per- 
imeter 方法 。 决 定 使 用 哪个 代码 是 在 运行 时 通过 一 个 动态 方法 表 查 找 来 确定 的 。 因 为 一 个 虚拟 方 
法 的 代码 可 以 被 动态 改变 ， 这 取决 于 所 给 的 对 象 类 型 ， 所 以 对 任何 通过 invokevirtual 指令 调用 的 
方法 ,将 看 来 是 禁止 方法 内 联 的 。 不 过 ， 在 许多 情况 下 ， 虚 拟 方法 在 大 多 数 时 间 (或 者 全 部 时 
H) 里 是 用 同类 对 象 来 调用 的 。 例 如 ， 比 方 说 前 面 的 例子 有 一 个 非常 大 的 循环 (从 一 个 文件 读 
人 输入 ， 而 不 是 从 命令 行 ) Square PREH, Rectangle 形状 普遍 得 多 ; 或 者 ， 在 极端 的 情况 下 ， 
Square 可 能 是 给 定 的 程序 执行 中 实际 出 现 的 唯一 形状 。 这 种 情况 可 以 通过 剖析 调用 一 个 给 定 的 虚 
拟 方法 所 引用 的 类 型 来 确定 。 

如 果 一 个 特殊 的 方法 在 大 多 数 时 间 内 被 调用 ， 那 么 可 以 内 联 这 个 方法 在 最 普通 的 子 类 中 的 
方法 代码 ， 并 把 守护 指令 放置 在 被 内 联 的 代码 的 上 方 。 守 护 简单 地 测试 紧 接 着 将 要 调用 的 方法 
所 基于 的 引用 类 型 。 如 果 它 是 所 期 望 的 (普通 的 ) 类 型 ， 那 么 守护 将 让 控制 转 到 被 内 联 的 方法 
版 本 。 另 一 方面 ， 在 这 种 引用 是 不 同 于 所 期 望 的 子 类 时 的 少见 情况 下 ， 守 护 可 以 分 支 到 一 条 非 内 
联 的 invokevirtual 指令 。 针 对 前 面 的 例子 ， 在 图 6-13 中 给 出 了 这 种 被 守护 的 内 联 方 法 。If 语句 
(通过 isInstanceof 方法 ) 检查 正 要 调用 perimeter 方法 的 对 象 引用 类 型 ， 如 果 它 是 Square 类 型 ， 
就 执行 被 内 联 的 代码 版 本 。 


If (a.isInstanceof(Square)) { 
inlined code for perimeter of a square 


Invokevirtual <perimeter> => 





Else invokevirtual <perimeter> 
图 6-13 一 个 被 内 联 的 方法 调用 被 守护 保护 


如 果 方 法 调用 真 的 是 多 态 以 至 于 完全 内 联 是 没有 用 的 ， 那么 至 少 可 以 避免 动态 方法 表 查 找 
的 开销 ， 这 要 使 用 类 似 于 在 二 进 制 翻 译 中 的 软件 跳 转 预测 技术 (2.7 节 )。 这 种 技术 被 称 为 多 态 
内 联 高 速 缓存 (PIC, polymorphic inline caching) (Hélzle, Chambers 和 Ungar 1991), ， 在 图 6-14 
中 说 明 。 在 这 个 例子 里 ， 假 设 有 比 我 们 的 矩形/ 正方形 例子 更 加 广泛 的 图 形 种 类 。 对 于 PIC， 运 
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行 时 系统 负责 维护 存根 (stub) 代码 ， 将 最 经 常 使 用 的 跳 转 放 在 序列 的 顶部 。 


square perimeter code 
invokevirtual 
= 
多 版 本 和 专门 化 


method table lookup code 
前 述 的 虚拟 方法 调用 的 内 联 方法 本 质 上 是 一 种 多 版 本 形式 (Artigas 等 2000; Gupta, Choi 和 


Hind 2000) 。 多 版 本 有 两 种 〈 或 者 多 种 ) 代码 版 本 ， 并 且 一 个 版 本 的 选择 取决 于 运行 时 信息 ， 如 
数据 的 值 或 类 型 信息 。 对 于 内 联 的 方法 ， 一 个 版 本 是 被 内 联 的 方法 代码 ， 另 一 个 版 本 是 一 条 in- 
vokevirtual 指令 ， 而 守护 选择 其 中 一 个 版 本 。 可 以 把 这 个 同样 的 一 般 方法 应 用 于 其 他 类 型 的 代 
码 ， 而 不 只 是 在 虚拟 方法 调用 。 
例如 ， 在 图 6-15 中 ,剖析 数据 值 可 以 确定 数组 A 的 元 素 几 乎 总 是 零 。 守 护 (在 图 中 用 斜体 
字 显 示 ) 检查 A [i] 看 其 是 否 为 零 ， 如 果 是 这 样 ， 则 它 使 用 一 个 代码 版 本 跳 过 剩余 的 指令 并 且 
简单 地 将 B [i] 设 为 零 。 
多 版 本 的 一 个 重要 方面 是 专门 化 (Grant 等 1999; Suganuma 等 2001) 。 如 果 某 些 变量 或 引用 
总 是 被 分 配 为 已 知 是 常数 (或 者 来 自 一 个 有 限 的 范围 ) 的 数据 值 或 类 型 ， 那么 有 时 可 能 使 用 简 
化 的 特殊 代码 来 代替 比较 复杂 的 一 般 代码 。 图 6-15 就 是 这 种 情况 ， 这 里 在 A [i] 为 零 时 是 特殊 
B12] 和 情况。 如 图 6-15 所 示 ， 专 门 化 可 以 与 多 版 本 联合 使 用 ， 或 者 可 以 通过 某 种 代码 分 析 来 激活 ， 这 
种 分 析 指 示 只 需 单个 专门 的 版 本 。 









if type = circle 
jump to circle perimeter code 
else if type= square 
jump to square perimeter code 
else call lookup 













call PIC stub 
Polymorphic inline Cache sub 


图 6-14 多 态 内 联 高 速 缓 存 示例 


for Cint i = 0; i < 1000; i++) { 
for (int i = 0; i < 1000; i++) { if CAL] 0) 
if CA[i] < 0) B[i] = -ALi]*Cli]; => 
else B[i] = AL[i]*CCi]: 


ray ow i| Gf CAL] < 0) BLi] = ALI]*CE1]: 
: BOJ- 0; ;| else BCI] = ALiT*CLi]; 





图 6-15 多 版 本 代码 。 对 于 常规 情况 C [i] =0， 可 以 有 一 个 比较 简单 的 专门 的 代码 版 本 


构造 多 个 版 本 的 一 种 可 选 办 法 是 只 编译 单个 代码 版 本 (或 者 少数 版 本 ) 并 推迟 对 一 般 的 且 
更 复杂 的 情况 的 编译 (Chambers 和 Ungar 1991; Whaley 200I) 。 例 如 ， 谢 析 可 以 发 现 到 程序 执行 
的 某 一 点 处 只 出 现 过 一 个 值 ， 因 此 一 个 优化 的 编译 器 可 以 跳 过 一 般 情 况 的 代码 。 实 际 上 ， 它 推测 
只 有 特殊 情况 曾经 发 生 。 然 而 ， 应 该 有 一 个 守护 来 检查 一 般 情况 ; 如果 它 发 生 了 ， 则 此 时 可 以 编 
译 一 般 的 代码 。 推 迟 编 译 在 图 6-16 中 说 明 。 其 代码 与 图 6-15 相同 ， 只 是 在 A [i] FE, AA 
跳 转 到 动态 编译 系统 ， 使 得 可 以 产生 所 需要 的 代码 以 允许 继续 执行 
栈 上 替换 
在 包括 Java 和 微软 的 CLI 等 大 多 数 高 级 语言 虚拟 机 中 ， PRE SPAT PUD 因此 ， 当 
B13| 进行 优化 时 ， 栈 也 是 一 个 重要 的 考 处 因素 。 为 了 理解 栈 和 程序 优化 之 间 的 关系 ,应 该 对 结构 
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栈 和 实现 栈 加 以 区 别 ， 结 构 栈 是 诸如 由 Java 或 者 MSL 程序 指定 的 栈 ， 实 现 栈 是 程序 执行 中 
(在 编译 和 /或 优化 之 后 ) 实际 使 用 的 栈 。 例 如 ， 在 方法 内 联 之 后 ， 实 际 的 实现 栈 将 不 包含 被 
ART EMR; 主 调 方法 和 被 内 联 方法 的 栈 帧 被 合 在 一 起 。 此 外 ， 在 一 些 类 型 的 优化 (如 
专门 化 ) 之 后 ， 实 现 栈 的 内 容 可 能 和 结构 栈 的 内 容 不 同 。 只 要 结果 是 正确 的 ， 那 么 实现 栈 和 
结构 栈 的 不 同 就 不 会 带 来 分 歧 。 结 构 栈 是 规定 程序 所 执行 的 切 能 的 一 种 手段 ; CRY RRS 
现 功能 的 精确 方法 。 
for (int i = 0; i < 1000; i++) { 
for Cint i = 0; i < 1000; i++) { 


if (ALi] < 0) Bril = ADC > 
else Bli] = A[i]*C[i] 


if (ALi] == 0) 


Jump to dynamic 
compiler for deferred 
compilation 





图 6-16 ”推迟 编译 。 用 推迟 编译 ， 对 于 不 常见 的 情况 ， 直 到 它 实际 发 生 才 会 产生 代码 


对 前 述 的 一 个 重要 推论 是 在 程序 执行 中 一 个 给 定点 ， 实 现 栈 的 内 容 (包括 帧 的 数量 和 每 个 
帧 中 元 素 的 数量 ) 可 以 依赖 于 在 程序 上 所 进行 的 优化 。 此 外 ， 有 些 情况 下 ， 动 态 优化 可 能 需要 
即时 修改 实现 栈 的 内 容 。 这 种 通过 修改 栈 来 适应 动态 改变 优化 级 别 的 过 程 被 称 为 找 上 替换 ， 或 
者 OSR (on-stack replacement) (Hélzle, Chambers 和 Ungar 1992; Fink 和 Qian 2003 ) 。 下 面 列 出 
了 一 些 可 以 使 用 OSR 来 支持 优化 的 情况 。 

1. 当 执 行内 联 (或 者 任何 其 他 优化 ) 时 ,将 最 近 优 化 的 代码 插入 到 程序 流程 中 的 最 彻底 的 方 
式 是 等 到 下 次 调用 包含 这 个 被 优化 的 代码 的 方法 。 不 过 ， 这 种 做 法 要 到 下 次 调用 这 个 方法 时 才 会 有 
好 处 ， 并 且 在 再 次 调用 一 个 长 期 运行 的 方法 之 前 可 能 是 一 长 段 时 间 。 极 端的 情况 发 生 在 程序 由 一 个 
含 优化 代码 的 单 循 环 所 支配 ， 并 且 这 个 循环 被 执行 数 百 万 (或 者 数 十 亿 ) 次 。 在 这 种 情况 下 ， 可 能 
从 不 会 再 次 调用 这 个 优化 的 方法 ， 因 此 如 果 要 想得到 任何 好 处 ， 就 必须 早点 插入 优化 的 代码 9 。 

2. 当 实 现 推迟 编译 时 ， 一 个 方法 执行 中 间 可 能 产生 新 的 代码 。 亦 即 ， 如 果 守 护 指明 紧 跟着 
的 是 一 条 不 常见 的 路 径 ， 那 么 就 不 得 不 产生 新 的 代码 ， 并 且 可 能 不 得 不 修改 当前 的 实现 栈 帧 以 
考虑 最 近 被 编译 的 (可 能 非常 大 ) 代码 区 域 。 

3， 当 一 个 调试 器 被 作为 全 虚拟 机 框架 的 一 部 分 实现 时 ， 用 户 会 期 望 观察 结构 化 的 指令 序列 
和 栈 的 内 容 ， 而 不 是 被 优化 代码 的 结果 和 实现 栈 的 内 容 。 在 这 种 情况 下 ， 可 能 有 必要 重新 对 一 个 
方法 反 优 化 。 这 是 与 前 两 种 情况 相对 立 的 ; 这 里 ， 可 以 调用 OSR 将 实现 栈 修改 成 不 太 优化 的 且 
几乎 更 接近 结构 化 的 版 本 。 

图 6-17 中 说 明了 栈 上 替换 。 这 里 ， 访 问 栈 的 代码 优化 级 别 被 即时 地 修改 ， 因 此 改变 了 实现 
栈 的 栈 帧 结构 和 /或 内 容 。OSR 的 基本 步骤 是 : (1) 从 当前 的 实现 栈 的 栈 帧 中 提取 出 结构 栈 的 栈 
帧 的 状态 (和 为 此 目的 而 维护 的 任何 其 他 实现 数据 ) ; (2) 产生 与 新 代码 版 本 一 致 的 新 的 实现 栈 
的 栈 帧 ; (3) 用 新 的 实现 栈 的 栈 帧 替换 当前 的 。 

图 6-18 给 出 了 OSR 的 一 个 重要 应 用 。 这 里 ， 多 个 栈 帧 正 蔡 换 为 单个 栈 帧 〈 或 者 相反 ) 。 如 
果 方 法 内 联 正 被 执行 (或 者 为 了 调试 正 被 移 除 ) ， 就 可 能 发 生 这 种 情况 。 





© 然而， 人 们 并 不 清楚 这 种 行为 在 实行 程序 中 是 否 经 常 发 生 ， 从 而 采用 这 种 技术 是 值得 的 。 有 时 ， 我 们 在 核心 基 
准 测试 程序 (有 时 称 为 微 基准 测试 程序 ) 中 观察 到 这 种 行为 ， 事 实 上 ， 这 可 能 是 在 面向 基准 测试 程序 的 竞争 性 
环境 下 考虑 这 种 优化 的 主要 动机 ， 高 性 能 虚拟 机 经 常 在 这 种 环境 下 开发 出 来 。 
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优化 /不 优化 方法 代码 
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提取 结构 化 状态 产生 新 的 栈 结构 
图 6-17 栈 上 替换 。 用 栈 上 替换 ， 栈 帧 的 一 个 版 本 被 蔡 换 成 男 一 个 。 
这 通常 发 生 在 访问 栈 巾 的 代码 优化 级 别 被 动态 改变 时 


方法 A, B,C 
ey 





图 6-18 栈 上 替换 。 栈 上 替换 可 以 用 来 把 单个 栈 帧 替换 为 多 个 栈 帧 (或 者 相反 ) 


通常 ， 在 构造 结构 栈 状态 和 构建 一 个 新 的 实现 栈 的 栈 帧 方面 ，OSR 都 是 一 个 相对 复杂 的 操 
作 。 如 果 初 始 的 栈 帧 正 由 一 个 解释 器 或 者 一 个 非 优 化 的 编译 器 维护 ， 那 么 提取 结构 栈 状态 是 简 
单 的 。 然 而 ， 如 果 栈 帧 是 针对 被 优化 代码 的 ， 则 经 常 必 须 为 OSR 做 某 些 特殊 的 准备 。 例 如 ， 编 
译 器 可 以 定义 一 组 OSR 可 能 发 生 的 程序 点 ， 然 后 保证 结构 化 的 值 在 执行 中 的 那些 点 上 是 活跃 的 。 
这 令 人 回想 起 检查 点 以 及 活跃 范围 扩展 ， 这 些 技术 被 某 些 二 进 制 优化 器 用 于 重新 调度 代码 时 
( 见 4.5.2 节 )。 

在 许多 情况 下 ， 被 OSR 激活 的 稳 态 性 能 收益 是 相对 小 的 。 然 而 ，OSR 允许 在 优化 编译 系统 
的 上 下 文中 实现 调试 器 。 另 外 ， 当 与 推迟 编译 一 起 使 用 时 ， 通 过 避免 对 未 用 代码 区 的 编译 /优化 ， 
可 以 减少 启动 时 间 ; 并 且 指令 “覆盖 区 ”比较 小 ， 这 可 以 改善 cache 性 能 。 

堆 分 配对 象 的 优化 

根据 其 本 性 ， 好 的 面向 对 象 编程 自由 地 创建 大 量 的 堆 分 配对 象 。 然 而 ， 有 许多 与 对 象 相 关联 
的 开销 。 创 建 对 象 和 垃圾 收集 的 代价 相对 较 高 。 此 外 ， 由 于 访问 保存 在 对 象 中 的 域 经 常 涉及 几 层 
间接 地 址 ， 所 以 每 个 对 象 域 的 访问 都 要 经 历 小 的 合计 开销 。 为 了 处 理 创 建 开销 ， 如 果 剖 析 表 明 一 
个 特殊 类 型 的 对 象 常 被 分 配 ， 那 么 就 可 以 内 联 堆 分 配 和 对 象 初始 化 的 代码 。 

标量 替换 (Carr 和 Kennedy 1994) 是 一 种 在 某 些 情况 下 可 以 非常 高 效 地 降低 对 象 访问 延 返 
的 优化 。 这 种 优化 用 一 个 标量 值 奉 换 一 个 对 象 域 。 图 6-19 给 出 了 一 个 例子 。 这 里 ， 在 左边 ， 一 
个 小 对 象 a 被 创建 ， 它 的 两 个 整数 域 被 赋值 ， 其 中 一 个 域 被 打印 。 如 果 可 以 确定 对 象 a 在 被 丢弃 


w 
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之 前 只 被 这 个 代码 片段 使 用 ， 对 象 创建 (和 稍 后 的 垃圾 收集 ) 与 域 引用 一 起 可 以 被 简单 的 标量 
引用 替换 ， 如 图 6-19 右边 所 示 。 当 标量 替换 被 应 用 于 对 象 时 需要 引用 逃 先 分析 (Choi 等 1999), 
这 是 一 种 确保 所 有 对 这 个 对 象 的 引用 在 包含 优化 的 代码 区 域内 。 在 这 个 例子 里 ， 没 有 任何 对 a 的 
引用 逃逸 出 被 优化 的 代码 区 。 


class square { 
int side; void calculate(Q) { 
int area; int tl = 3; 


=> int t2 = tl * tl; 


void calculate() { System.out.printin(t2); 
} 


a = new square(); 

a.side = 3; 

a.area = a.side * a.side 
System.out.printIn(a.area); 





} 
图 6-19 标量 替换 。 用 标量 蔡 换 ， 一 个 对 象 域 被 替换 为 一 个 标量 变量 以 使 得 降低 访问 延迟 


在 一 个 对 象 内 数据 域 的 物理 放置 是 一 种 与 实现 有 关 的 特性 。 因 此 ， 可 以 根据 使 用 模式 排列 
对 象 域 来 实现 数据 cache 性 能 的 改善 (Chilimbi，Davidson 和 Larus 1999; Kistler 和 Franz 2000) 。 
此 外 ， 通 过 使 用 传统 的 编译 器 优化 可 以 把 某 些 域 引 用 完全 删除 。 例 如 ， 可 以 发 现 和 删除 元 余 的 
getfield 和 putfield 操作 。 这 在 图 6-20 中 说 明 。 这 里 ， 同 一 个 域 被 访问 两 次 (a side 和 c. side), 
基于 数据 流 分 析 可 以 发 现 元 余 访 问 ， 相 应 的 域 值 被 保存 在 一 个 临时 单元 (可 能 是 一 个 寄存 器 ) 
中 或 者 从 tt 中 复制 ， 从 而 避免 了 第 二 个 getfield (到 c. side), 
new square; ew Square; 


new square, ew square; 
a; ; 


‘side = 5; = 


.side = 10; 
c.side; 


图 6-20 ”删除 宛 余 getfield (加 载 ) 的 例子 





低级 别 的 优化 

除了 前 面 给 出 的 对 面向 对 象 程序 特别 有 效 的 优化 以 外 ， 还 可 以 应 用 在 第 4 章 中 讨论 过 的 许多 
传统 优化 。 这 些 优化 包括 无 用 代码 删除 、 分 支 优化 、 复 制 和 常数 传播 、 强 度 前 弱 ， 以 及 代码 重 
排 。 因 为 它们 都 已 经 被 讨论 过 ， 所 以 这 里 不 进一步 详 述 。 不 过 我 们 会 讨论 一 些 扩展 和 其 他 的 考虑 
要 素 ， 它 们 主要 针对 面向 对 象 上 下 文 。 

在 面向 对 象 高 级 语言 虚拟 机 中 ， 一 个 潜在 的 重要 开销 是 需要 进行 数组 范围 和 空 引 用 的 检查 。 
理论 上 ， 每 次 访问 一 个 数组 或 者 使 用 一 个 引用 时 ， 就 必须 执行 这 些 检查 ; 或 许 重 要 的 是 可 能 会 抛 
出 一 个 异常 。 这 意味 着 有 两 个 可 能 的 性 能 损失 原因 。 一 个 是 本 身 需 要 执行 范围 / 空 检查 ， 另 一 个 
是 禁止 其 他 优化 ， 这 是 因为 如 果 检 查 失败 就 可 能 会 抛 出 异常 。 在 后 一 种 情况 下 ， 当 发 生 异 常 时 ， 
结构 进程 状态 必须 是 精确 的 ， 并且， 恰好 和 使 用 二 进 制 优化 器 一 样 ， 如 果 一 个 精确 状态 必须 被 潜 
在 的 具体 化 ， 那 么 可 能 会 禁止 某 些 优化 。 

通过 用 一 个 “不 合法 的 ”在 范围 之 外 的 地 址 代表 空 指针 值 ， 即 用 一 个 Java 进程 没有 读 写 权 
限 的 内 存 地 址 ， 可 以 大 量 地 消除 空 指针 检查 的 开销 。 然 后 任何 一 个 使 用 空 指针 的 企图 都 会 导致 
一 个 陷阱 ， 它 通过 操作 系统 支持 的 信号 机 制 报告 给 JVM 运行 时 系统 。 不 过 ， 异 常 的 可 能 性 (和 
需要 恢复 一 个 精确 状态 ) 仍 保持 不 变 ， 所 以 仍 要 禁止 某 些 涉 及 代码 移动 的 代码 优化 。 
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处 理 范 围 / 空 检查 的 一 个 通常 方式 是 把 它们 当 作 普 通 的 指令 对 待 然后 执行 类 似 的 优化 。 例 

Bis] 如 ， 就 像 可 以 删除 一 条 元 余 的 指令 或 者 把 一 条 不 变 的 指令 提升 到 循环 之 外 一 样 ， 也 可 以 删除 或 

提升 一 个 元 余 或 不 变 的 检查 。 一 个 简单 的 例子 如 图 6-21 所 示 。 这 里 ,一 系列 的 getfield 和 putfield 

操作 使 用 保存 在 p 和 Tr 中 的 同一 对 象 引 用 。 如 果 第 一 个 putfield (p.x=...) 通过 空 检 查 ， 那 么 

使 用 同一 个 引用 的 getfield 也 会 通过 。 空 检查 的 性 质 也 可 以 传播 给 rr 引用。 这样， 只 需要 第 一 次 

对 Pp 的 空 检查 ， 而 后 面 对 p 和 + 的 检查 就 变 成 元 余 了 。 在 删除 元 余 的 空 检查 以 后 (图 的 右边 )， 
随后 对 q. x 的 putfield 可 以 重 排 在 对 .x 的 putfield 之 后 。 


<null check p> ==> x = 


<null check p> 


<null check q> 





。 <null check r(p)> 
图 6-21 删除 元 余 的 空 检查 。 在 识别 和 删除 元 余 的 空 检查 后 ， 能 够 做 涉及 代码 移动 的 优化 


图 6-22 中 给 出 了 一 个 提升 不 变 检 查 的 例子 。 在 左边 的 代码 中 ， 数 组 范围 检查 在 每 次 循环 和 迭 
代 时 执行 。 然 而 ， 检 查 可 以 被 提升 到 循环 的 外 部 〈 右 边 的 图 ) 并 且 只 需 执 行 一 次 。 在 检查 被 提 
升 到 循环 外 面 以 后 ， 它 为 两 个 版 本 的 代码 采用 和 守护 形式 ， 一 个 不 执行 检查 而 另 一 个 执行 。 


If (j < A. length) 
then for (Cint i = 0; i < j; i++) { 
for Cint i = 0; i < j; i++) { sum += A[i]; 
sum += A[i]; <range check A> => } 
else for (int i = 0; i < j; i++) { 
sum += A[i]; <range check A> 
} 





图 6-22 ”提升 一 个 不 变 的 检查 。 一 个 数组 范围 检查 被 提升 到 循环 的 外 面 。 然 后 在 
通常 情况 下 ， 循 环 内 部 不 需要 范围 检查 


最 后 一 个 例子 是 一 种 被 称 为 循环 剥离 的 技术 ， 执 行 它 可 以 避免 空 指针 问题 。 在 图 6-23 中 ， 
循环 体 包 含 一 个 带 有 空 检查 的 对 象 引 用 。 因 此 ， 禁 止 围绕 这 个 引用 的 代码 移动 。 不 过 ， 可 以 剥离 
第 一 次 循环 选 代 〈 右 边 的 图 ) ; 如 果 第 一 次 先 代 不 引起 空 指针 异常 ， 其 他 迭代 也 不 会 。 因 此 ， 对 
剩余 的 循环 迭代 并 不 需要 空 检 查 ， 并 且 能 做 其 他 的 代码 优化 。 

r = A[0] ; 
B(O] = r*2; 
for (int i = 0; i < 100; i++) { p.x = A[O]; <ul check p> 


for Cint i = 1; i < 100; i++) { 
=> r Afi] 


.X += ALi] ; <nu7] check p> p. x += ATi] ; 
P BLi] = r*2; 





图 6-23 MRH. HMR A KAMER, TUMREAARER PHS 


优化 垃圾 收集 
垃圾 收集 是 高 性 能 虚拟 机 实现 的 一 个 关键 部 分 ， 并 且 编 译 器 可 以 提供 许多 方式 帮助 Java 运 
行 时 系统 提高 垃圾 收集 的 效率 。 首 先 ， 有 些 时 候 堆 的 状态 会 暂时 不 一 致 ， 例 如 ， 当 对 象 引 用 正 被 
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修改 时 。 在 这 些 点 上 ， 为 了 避免 错误 ， 不 应 该 启动 垃圾 收集 。 因 此 ， 编 译 器 可 以 在 代码 中 的 规则 
间隔 内 向 垃圾 收集 器 提供 “退让 (yield) 点 ”。 在 这 些 点 上 线程 可 以 保证 一 致 的 堆 状 态 ， 以 便 控 
制 可 以 被 退让 给 垃圾 收集 器 。 同 样 ， 编 译 器 可 以 帮助 特定 的 垃圾 收集 算法 。 例 如 ， 如 果 使 用 分 代 
收集 器 ， 那 么 编译 器 必须 提供 写 路 障 。 


6.7 案例 研究 : Jikes RVM 


Jikes 研究 虚拟 机 (Jikes RVM) 是 由 IBM 研究 部 门 开发 的 , 已 经 为 一 般 的 虚拟 机 研究 团体 
EHE (Arnold 等 2000) 。Jikes 是 基于 一 个 早期 的 研究 成 果 Jalapeno ， 最 初 在 研究 论文 中 是 用 这 
个 名 字 来 描述 的 。 这 里 的 讨论 是 基于 对 Jalapeno 和 Jikes 系统 的 描述 。 

总 的 优化 策略 是 只 编译 而 没有 解释 步骤 。 首 先 ， 存 在 一 个 基线 编译 器 将 字 节 码 直接 翻译 成 
本 地 代码 。 这 种 编译 器 本 质 上 不 执行 寄存 器 分 配 ， 而 是 用 产生 的 代码 仿真 Java 栈 。 然 后 有 一 个 
支持 三 级 优化 的 动态 编译 器 用 于 优化 ， 它 被 分 阶段 地 调用 ， 这 依赖 于 成 本 效益 估算 。 

Jikes 是 一 个 多 线程 的 实现 ， 负 责 优化 的 线程 与 执行 程序 的 线程 并 发 地 运行 。Jikes 将 Java 应 
用 和 运行 时 系统 的 线程 用 多 路 同时 传送 给 由 底层 主机 平台 支持 的 线程 ， 如 AX pthreads, XT ft 
许 抢先 式 线程 调度 ， 编 译 器 通常 在 方法 的 开头 、 结 尾 以 及 循环 回 边 放 置 退 让 点 。 在 退让 点 ， 代 码 
测试 一 个 控制 位 ; 如 果 线程 调度 程序 想 要 抢先 占有 一 个 线程 ， 它 将 设置 线程 的 控制 位 。 在 下 一 个 
退让 点 ， 线 程 将 调用 线程 调度 程序 。 

图 6-24 给 出 了 Jikes 自 适 应 优化 系统 (AOS) 的 整体 结构 。 其 中 主要 的 子 系统 是 运行 时 度量 
系统 、 重 编译 系统 和 控制 器 。 这 些 子 系统 都 和 AOS 数据 库 相 交互 ，AOS 数据 库 包 含 剖 析 数 据 和 
优化 决策 的 历史 。 








重 编译 子 系统 } 
测量 / 编译 计划 ' 






AOS 数据 库 
CBE) ， 








事件 队列 编译 队列 
图 6-24 Jikes 自 适应 优化 系统 (AOS) 


运行 时 度量 子 系统 通过 在 退让 点 采样 来 搜集 原始 的 性 能 数据 。 亦 即 ， 当 一 个 线程 切换 时 ， 回 
边 退 让 点 为 包含 这 条 边 的 方法 增加 一 个 活动 数 。 如 果 退 让 点 在 方法 的 开头 ， 则 为 主 调 方法 增加 
活动 数 ; 如 果 退 让 点 是 在 方法 的 结尾 ， 则 增加 被 调用 方法 的 活动 数 ?>。 系 统 也 可 以 支持 其 他 类 型 
的 、 由 编译 器 插 人 的 揪 桩 来 执行 边 剖 析 、 基 本 块 剖 析 或 者 值 剖析 ， 取 决 于 所 考虑 的 优化 。 性 能 


© ”这 些 退让 点 和 剖析 启发 反映 了 当前 的 Jikes 实现 ， 而 不 是 论文 中 描述 的 Jikes (Jalapeno) (Amold 4%, 2000), 
© Instrumentation 有 的 翻译 成 “探测 ”。 一 一 译 者 注 
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数据 起 初 按 原 始 形式 保存 。 这 些 原 始 的 方法 样本 被 一 个 称 为 热 方法 组 织 器 的 独立 线程 周期 性 地 
分 析 ， 它 总 结 并 将 剖析 数据 按 一 种 能 让 其 他 优化 系统 更 易于 使 用 的 形式 来 存放 。 

控制 器 负责 调整 运行 时 度量 和 重 编译 子 系统 的 行为 。 它 指示 度量 子 系统 开始 、 继 续 ， 或 者 改 
变 剖 析 行 为 。 当 一 个 方法 被 采样 时 ， 也 就 是 说 ， 在 线程 切换 过 程 中 这 个 方法 被 发 现 是 活跃 的 时 
候 ， 热 方法 组 织 器 将 这 个 方法 放 人 到 事件 队列 中 以 供 控制 器 考虑 重 编译 。 接 着 控制 器 作出 关于 
重 编译 的 决定 ， 如 是 否 对 这 个 方法 执行 重 编译 ， 如 果 执 行 ， 在 什么 优化 级 别 上 进行 。 

控制 器 的 一 个 重要 功能 是 确定 一 个 方法 是 否 应 该 在 更 高 的 优化 级 别 上 被 重 编译 。 为 此 ，Jikes 
使 用 一 个 分 析 成 本 效益 模型 。 比 方 说 ,一 个 给 定 的 方法 m 当前 在 优化 级 别 i<N 上 被 编译 ， 这 里 
N 是 最 高 的 优化 级 别 。 那 么 控制 器 评估 (1) Ti， 如 果 不 重 编 译 m 则 程序 花费 在 方法 m 上 的 期 望 
执行 时 间 ; (2) Gj， 在 级 别 j 宇 i 上 重 编译 方法 m 的 代价 (所 需要 的 时 间 ); (3) Ti, ERE 
后 程序 花费 在 m 上 的 期 望 执 行 时 间 。 注 意 要 考虑 在 同一 级 别 i 上 的 重 编译 ， 因 为 它 可 能 会 比 前 一 
次 在 级 别 1 上 编译 方法 m 获得 更 多 可 用 的 剖析 数据 ; 这 种 附加 的 剖析 数据 可 能 改变 在 级 别 i 上 所 
进行 的 特殊 优化 。 然 后 ， 控 制 器 确定 优化 级 别 j， 其 中 Cj + 下 是 最 小 的 。 接 着 在 级 别 j 上 执行 重 
编译 ， 当 然 除 非 因 Cj + Tj 二 Ti 而 不 执行 重 编译 。 

尽管 这 种 成 本 效益 分 析 看 似 非常 简单 ， 但 是 真正 的 难点 是 对 C 和 T 值 的 估计 。 因 此 Jikes 使 
用 启发 式 和 实验 推导 的 参数 相 结合 。 为 了 估计 了 T 值 ， 控 制 器 假设 在 当前 的 优化 级 别 上 ， 方 法 未 
来 将 消耗 的 执行 时 间 和 它 已 经 消耗 的 一 样 多 ， 即 Ti=Tcurrent, Tj 的 值 是 通过 首先 使 用 离线 基准 
程序 估计 不 同 优 化 级 别 的 加 速 比 来 确定 的 。 优 化 级 别 k 对 级 别 0 的 加 速 比 是 Sk, BRA Tj = Ti * 
SiSj。 最 后 ， 把 重 编译 代价 Gj 估计 为 是 要 重 编译 的 方法 的 规模 的 线性 函数 。 常 倍数 也 是 由 离线 
测试 基准 程序 确定 的 。 如 果 控 制 器 决定 应 该 进行 重 编译 ， 它 将 有 关 的 信息 放 到 重 编译 队列 中 ， 由 
一 个 编译 线程 维护 。 

重 编译 子 系统 由 许多 线程 组 成 ， 这 些 线程 将 编译 计划 从 重 编译 队列 中 移出 。 由 于 它们 作为 
独立 的 线程 运行 ， 故 可 以 与 Java 应 用 线程 并 发 地 执行 。 一 个 编译 计划 由 应 该 执行 的 优化 、 将 被 
优化 器 使 用 的 剖析 数据 ， 以 及 一 个 播 桩 计划 组 成 ， 插 桩 计划 是 由 编译 器 放 在 它 生成 的 代码 中 的 
剖析 插 桩 (是 为 了 潜在 的 未 来 优化 ) 。 

AOS 数据 库 包 含 历史 剖析 数据 和 编译 计划 、 状 态 、 重 编译 方法 的 历史 。 控 制 器 和 重 编译 子 
系统 可 以 查询 这 个 数据 库 以 进一步 指导 重 编译 决策 和 优化 。 

Jikes 编译 器 有 三 个 级 别 的 优化 。 接 下 来 简单 总 结 在 每 个 级 别 上 执行 的 优化 。 

级 别 0: 包括 许多 传统 的 编译 器 优化 ， 例 如 复制 和 常量 传播 、 公 共 子 表达 式 删 除 、 无 用 代码 
删除 、 分 支 优 化 以 及 其 他 许多 的 方法 。 内 联 所 谓 琐碎 的 方法 ， 这 些 方法 中 的 代码 比方 法 的 调用 序 
列 要 小 。 另 外 ， 执 行 一 些 简 单 的 代码 重 排 ， 并 且 寄 存 器 分 配 遵循 一 个 简单 线性 的 扫描 算法 。 

级 别 1: 因为 许多 经 典 的 优化 是 在 级 别 0 上 进行 的 ， 所 以 需要 额外 的 优化 处 理 高 级 代码 重 
构 ， 这 种 重 构 基 于 剖析 信息 有 更 积极 的 内 联 ， 并 且 有 更 加 积极 的 代码 重 排 。 

级 别 2: 使 用 一 种 静态 单 指派 ( static single assignment, SSA) 的 中 间 形 式 ， 这 里 每 个 寄存 器 
变量 一 次 只 分 配 一 个 值 (Cytron 等 1991; Cooper 和 Torczon 2003) 。 使 用 这 种 形式 提供 许多 全 局 
优化 〈 或 者 传统 优化 的 更 高 效 版 本 ， 例 如 公共 子 表达 式 删除 ) 的 可 能 性 。 它 还 包括 一 些 优化 ， 
如 果 不 〈 在 剖析 数据 的 帮助 下 ) 明智 地 应 用 这 些 优化 ， 可 能 导致 代码 显著 膨胀 。 例 如 ， 循 环 展 
开 复 制 一 个 循环 体 ， 从 而 增加 了 其 他 优化 的 机 会 并 且 删 除了 许多 闭环 分 支 。 

Jikes 的 开发 者 已 经 发 表 了 许多 基准 程序 的 测试 结果 。 我 们 给 出 一 些 针对 SPECjvm98 基准 程 
序 集 的 测试 结果 ， 它 共有 七 个 程序 ， 这 些 程 序 的 类 文件 大 小 在 10KB 到 大 约 1.4MB 之 间 。 我 们 
给 出 “启动 ”性 能 和 “ 稳 态 ”性 能 的 性 能 测试 结果 。 在 启动 和 稳 态 之 间 有 两 点 区 别 : 第 一 ， 稳 
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态 数据 集 在 数量 级 上 近似 地 大 于 启动 数据 集 ; 第 二 ， 每 个 稳 态 基准 程序 被 同一 个 JVM 实例 运行 
五 次 迭 代 并 且 记 录 最 好 的 选 代 人 性能。 启动 行为 将 主要 受 数 据 结 构 的 初始 化 、 类 文件 的 加 载 以 及 
编译 的 开销 的 影响 。 稳 态 性 能 与 人 们 在 较 理想 的 生产 环境 下 所 期 待 的 相 接近 ， 其 中 启动 开销 会 
有 更 多 的 时 间 来 分 摊 。 

为 了 比较 ， 用 基准 程序 测量 了 许多 编译 场景 并 与 简单 的 基线 编译 相 比较 。 在 一 组 场景 下 ， 编 
译 器 用 三 种 优化 级 别 中 的 每 一 种 作为 JIT 编译 器 来 运行 。 亦 即 ， 一 个 方法 第 一 次 被 调用 时 ， 立 即 
在 给 定 优化 级 别 上 编译 它 ， 并 且 在 程序 的 整个 执行 过 程 中 始终 保持 在 那个 优化 级 别 上 。AOS 实 
现 以 分 阶段 方式 使 用 所 有 的 优化 级 别 ， 并 且 优 化 在 每 个 方法 的 基础 上 执行 。 使 用 AOS + FDO 
(Feedback Directed Optimization ， 反 馈 指导 的 优化 ) ， 将 维护 更 加 完整 的 剖析 信息 ， 因 此 可 以 做 出 
更 好 的 内 联 决 策 并 且 可 以 更 好 地 在 方法 内 确定 优化 目标 。 

性 能 是 用 相对 于 简单 未 优化 的 基线 编译 器 的 加 速 比 来 评价 的 。 图 6-25 显示 了 每 个 基准 程序 
的 启动 结果 和 全 部 七 个 的 调和 平均 加 速 比 。 对 于 JIT 编译 器 ， 优 化 级 别 越 低 性 能 越 好 (compress 
是 仅 有 的 一 个 明显 的 反例 ， 这 里 JIT 1 胜 过 JIT 0)。 对 于 启动 基准 程序 ， 不 能 分 挫 优 化 所 需 的 额 
外 时 间 ， 这 归 因 于 运行 时 间 相 对 较 短 (compress 除外 ， 其 代码 质量 比 其 他 基准 程序 中 的 更 加 重 
要 )。 所 有 的 WT 编译 器 都 在 基线 以 下 ， 因 为 它们 对 所 有 的 方法 至 少 提供 了 级 别 0 的 优化 ， 即 使 
是 只 执行 一 次 。AOS 和 AOS + FDO 动态 编译 方法 执行 得 最 好 ， 给 出 大 约 1.75 的 加 速 比 ， 因 为 它 
们 只 把 时 间 花 费 在 执行 基线 以 外 的 编译 上 ， 在 可 能 有 好 的 性 能 收益 的 地 方 ， 可 能 伴随 着 额外 的 
优化 。 
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图 6-25 在 七 个 SPECjvm98 基准 程序 上 的 Jikes 启动 性 能 


图 6-26 说 明了 稳 态 基准 程序 的 测试 结果 。 这 里 ， 结 果 与 启动 情况 完全 不 同 。 现 在 JIT 编译 器 
的 级 别 越 高 ， 性 能 越 好 。 使 用 级 别 0 作为 TIT， 给 出 了 高 出 基线 1. 9 倍 的 加 速 比 ; 上 升 到 级 别 2， 
可 得 到 约 2. 25 倍 的 加 速 比 。 有 趣 的 是 ， 用 AOS 分 阶段 优化 通常 会 降 到 比 级 别 2 的 SIT 要 略 低 些 。 
因为 JIT 在 每 次 迭代 时 执行 相同 的 代码 ，JIT 性 能 运行 可 以 在 第 一 次 迭代 时 完成 编译 ， 然 后 执行 
四 次 没有 齐 析 和 编译 开销 的 迭代 。 另 一 方面 ，AOS 性 能 在 所 有 五 次 迭代 中 都 进行 剖析 和 重 编译 。 
然而 ， 对 于 两 种 基准 测试 ， 不 带 有 FDO 的 AOS 实际 上 击败 了 JIT2， 因 为 AOS 有 时 在 比 JIT2 稍 
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晚 的 时 间 (在 程序 执行 中 ) 重 编译 一 个 方法 。 这 种 较 晚 的 编译 允许 发 生 更 多 的 类 加 载 ， 删 除 某 
些 未 解析 确定 的 引用 ， 这 样 由 AOS 产生 的 代码 被 高 度 地 优化 了 。 最 后 ， 因 为 AOS + FDO 能 够 执 
行 额外 的 剖析 指导 的 优化 ， 对 于 某 些 基准 测试 ， 它 提供 了 比 AOS 实现 所 用 的 以 方法 为 粒度 的 优 


化 要 高 得 多 的 加 速 比 。 
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图 6-26 在 七 个 SPECjvm98 基准 程序 上 的 Jikes 稳 态 性 能 
了 解 一 个 高 级 的 JVM 把 它 的 时 间 花 费 在 哪里 也 是 有 意思 的 。 图 6-27 给 出 了 针对 Jikes 的 执行 
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图 6-27 Jikes 系统 花费 时 间 之 处 
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剖析 。 这 个 特殊 的 剖析 是 针对 整个 SPECjvm98 基准 程序 集 的 ， 每 一 个 基准 程序 被 执行 一 次 迭代 。 
在 不 同 的 应 用 上 ， 执 行 剖析 与 平均 性 能 显著 不 同 ， 尤 其 是 花费 在 垃圾 收集 上 的 时 间 。 在 整个 基准 
程序 集 上 ， 执 行 优化 的 重 编译 只 占 总 时 间 的 7% ， 而 所 有 其 他 与 自 适 应 优化 相关 的 任务 ， 即 各 种 
控制 和 敌 记 功能 ， 所 消耗 的 时 间 可 以 忽略 。 我 们 看 到 86% 的 时 间 花 费 在 执行 应 用 线程 上 ， 而 69 
花费 在 垃圾 收集 器 上 。 这 往往 突出 了 垃圾 收集 在 JVM 中 的 重要 性 ; 花费 在 垃圾 收集 上 的 时 间 和 
花费 在 代码 优化 上 的 时 间 大 约 一 样 多 。 


6.8 总 结 


传统 观念 认为 在 高 级 语言 虚拟 机 上 和 运行 的 程序 是 相对 缓慢 的 。 这 是 一 个 令 人 误解 的 观念 。 
一 些 早期 的 Java 虚拟 机 是 缓慢 的 。 对 解释 的 高 度 依赖 自然 会 使 程序 在 稳 态 仿真 期 间 减 慢 ， 并 且 
没有 选择 性 的 动态 优化 方法 ， 即 简单 的 TIT 编译 ， 会 有 高 启动 时 间 。 不 过 ， 现 代 高 级 语言 虚拟 机 
的 实现 依靠 编译 的 代码 ， 并 且 对 何 时 何 地 应 用 优化 更 有 选择 性 。 这 不 但 导致 较 少 的 开销 而 且 在 
称 态 有 更 好 的 优化 。 此 外 ， 由 动态 虚拟 机 范例 引起 的 减速 不 应 该 与 由 支持 面向 对 象 编程 而 引起 
的 减速 相 混淆 。 面 向 对 象 编程 导致 程序 更 健壮 并 有 高 度 的 代码 可 重用 性 (是 其 中 的 优点 ) ,但 是 
有 时 这 些 重 要 的 软件 工程 优势 会 有 性 能 代价 。 例 如 ， 在 面向 对 象 代码 中 固有 的 是 附加 的 间接 层 
次 ， 这 在 传统 C 类 型 代码 中 可 能 找 不 到 。 但 是 这 通常 是 由 软件 的 面向 对 象 特性 引起 的 ， 而 不 是 
由 它 运行 在 虚拟 机 上 这 个 事实 引起 的 。 

对 于 Java 平台 和 最 近 的 微软 . NET 框架 的 开发 ， 高 级 语言 虚拟 机 已 经 达到 了 “临界 集 " 。 在 
不 久 的 未 来 ， 实 质 上 所 有 应 用 程序 可 能 都 为 一 个 平台 独立 的 高 级 语言 虚拟 机 而 开发 。 这 将 改变 
常规 的 编程 习惯 (用 C 编程 将 看 成 与 今天 用 汇编 语言 编程 非常 相同 的 方式 ) ， 并 且 它 将 可 能 改变 
硬件 平台 的 实现 方式 。 如 果 所 有 的 软件 都 为 一 个 平台 独立 的 高 级 语言 虚拟 机 而 开发 ， 那 么 就 提 
高 了 标准 化 的 级 别 ， 并 且 就 更 少 与 底层 硬件 ISA 相关 联 了 。 
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第 7 章 协同 设计 虚拟 机 


从 20 世纪 50 年代 早 期 第 一 台 商 用 计算 机 出 现 到 现在 ,硬件 和 软件 都 发 生 了 根本 性 的 变化 。 
但 是 ， 软 硬件 接口 的 基本 特性 却 没有 什么 大 的 改变 。 也 就 是 说 ， 几 十 年 来 在 软 硬 件 之 间作 为 功能 
划分 和 界面 视图 的 指令 集体 系 结构 CISA) 没有 发 生 大 的 变化 。 在 硬件 资源 比较 昂贵 因而 相对 简 
单 的 年 代 ，ISA 通常 直接 反映 硬件 的 实现 细节 。 如 果 硬 件 包含 一 个 累加 器 ， 那 么 ISA 也 应 该 有 一 
条 累加 指令 。 但 是 时 代 不 同 了 ， 硬 件 资 源 变 得 相当 充足 而 且 便宜 ， 单 个 芯片 上 可 以 集成 多 达 数 亿 
个 晶体 管 。 因 而 ， 处 理 器 的 底层 硬件 实现 已 经 和 通常 使 用 的 ISA 所 反映 的 映像 大 不 相同 了 。 例 如 
Intel IA-32 是 仍 在 广 为 使 用 的 一 种 旧 的 微 处 理 器 ISA， 它 作为 一 种 CISC ISA， 其 设计 初衷 是 在 只 
有 少数 通用 寄存 器 和 基于 栈 的 浮 点 指令 条 件 下 进行 按 序 串 行 操 作 。 但 是 现代 的 IA-32 实现 将 
CISC ISA 转换 成 RISC ISA， 并 在 一 个 有 大 量 寄存 器 和 基于 寄存 器 的 浮 点 指令 的 动态 超标 量 微 体 
系 结构 上 执行 (Hinton 等 2001; Keltcher 等 2003)。 从 CISC 到 RISC 的 这 种 转变 完全 是 在 硬件 上 


实现 的 ( 见 图 7-1) o 
功能 
单元 
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CISC Fa 
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图 7-1 CISC 到 RISC 的 转换 。 基 于 CISC 指令 集 的 传统 高 性 能 微 结构 
使 用 硬件 将 CISC 指令 翻译 成 类 RISC 微 操作 


通过 硬件 将 传统 的 ISA 进行 动态 转换 ， 其 目的 主要 是 为 了 保证 作为 软 硬 件 接口 的 ISA 不 变 。 
现 有 的 ISA 是 极其 重要 的 接口 ， 基 于 这 些 接口 有 大 量 的 软件 和 架构 开发 投入 。 为 了 适应 技术 的 
发 展 必须 引入 新 的 SA， 但 是 兼容 性 却 成 了 最 大 的 障碍 。 幸 运 的 是 ， 虚 拟 机 技术 提供 了 一 种 新 的 
通用 处 理 器 设计 途径 ， 能 够 有 效 支持 新 的 ISAs。 虚 拟 机 技术 可 以 将 处 理 器 开发 变 为 一 种 协同 设 
计 ， 即 同时 设计 主体 系 结构 (包括 目标 ISA) 和 在 其 上 运行 的 虚拟 机 软件 。 因 为 主机 硬件 是 作为 
虚拟 机 一 个 不 可 分 割 的 部 分 开发 的 ， 所 以 没有 必要 使 用 已 有 的 主 平台 或 者 目标 ISA。 这 种 软 硬 件 
协同 设计 可 以 支持 传统 的 源 ISA (以 及 所 有 为 它 开发 的 软件 ) 。 

协同 设计 虚拟 机 为 体系 结构 创新 开辟 了 一 个 新 的 途径 。 由 于 软件 已 经 成 了 硬件 平台 的 一 部 
分 ， 和 硬件 和 传统 软件 的 接口 也 同时 向 上 转移 ， 这 样 就 为 使 用 更 优化 的 方法 划分 软 硬 件 的 实现 提 
供 了 可 能 。 因 为 协同 设计 虚拟 机 支持 整个 系统 ， 包 括 操作 系统 和 应 用 程序 ， 所 以 它 实际 上 是 系统 
虚拟 机 的 一 种 形式 。 但 它 与 其 他 系统 虚拟 机 有 所 不 同 ， 除 了 处 理 器 之 外 协同 设计 虚拟 机 并 不 虚 
拟 其 他 的 硬件 资源 ， 也 不 打算 支持 多 虚拟 机 环境 。 它 的 目的 是 着 眼 于 改善 性 能 、 功 耗 效 率 和 设计 
简单 性 。 

第 一 个 协同 设计 虚拟 机 应 该 是 IJBM System/38 (Bertsis 1980) ， 也 就 是 后 来 的 AS/400 (Soltis 
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1996) 和 现在 的 iSeries, System/38 采用 软 硬 件 协同 设计 ， 支 持 具 有 高 级 语义 的 客户 机 ISA， 而 
用 硬件 实现 是 无 法 直接 支持 它 的 。 它 缩小 了 传统 的 ISA 和 高 层次 软件 之 间 的 语义 隔 闪 (Myers B29 
1982) 。 它 的 另 一 个 目的 是 将 源 ISA 和 目标 ISA 隔离 ， 从 而 后 续 的 硬件 平台 可 以 在 维持 软件 兼容 B40 
性 的 同时 重新 进行 设计 。AS/400 家 族 的 发 展 证 明了 这 种 方法 的 成 功 ， 它 的 主 平 台 ISA 由 开始 专 
用 的 CISC ISA 转变 为 扩展 的 PowerPC ISA， 这 种 变迁 的 过 程 对 于 用 户 是 完全 透明 的 。 
另 一 个 商业 化 的 协同 设计 虚拟 机 是 由 Transmeta ( Halfhill 2000; Klaiber 2000) FAM, EX 
现 了 一 个 目标 指令 集 ， 其 中 许多 不 相关 指令 可 被 放 在 一 个 超 长 指令 字 (VLIW) 中 。 协 同 设计 软 
件 负 责 在 传统 的 源 ISA (1A-32) 指令 流 中 找 出 不 相关 指令 ， 并 把 它们 装配 到 目标 VLIW ISA 中 。 
由 于 它们 的 不 相关 性 ，VLIW 中 的 指令 不 需要 复杂 的 硬件 支持 就 可 以 并 行 地 发 射 执行 。 因 此 ， 这 
种 协同 设计 虚拟 机 实现 避免 了 大 多 数 超标 量 处 理 器 使 用 的 乱 序 发 射 单元 的 复杂 性 和 能 耗 。 
图 7-2 描述 了 一 个 协同 设计 虚拟 机 的 总 体 视 图 。 如 前 所 述 ， 它 是 一 个 系统 虚拟 机 ， 所 有 的 虚 
拟 机 软件 驻 留 在 存储 器 中 一 个 对 其 他 常规 软件 都 不 可 见 的 区 域 。 为 了 与 系统 虚拟 机 所 使 用 的 命 
名 惯例 一 致 ， 我 们 称 这 种 虚拟 机 软件 为 虚拟 机 监控 程序 (VMM). 
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图 72 ”虚拟 机 监控 程序 (VMM) 。 协 同 设计 虚拟 机 通过 结合 使 用 硬件 和 
隐藏 存储 器 中 运行 的 软件 来 支持 常规 的 源 ISA 


虚拟 机 监控 程序 的 主要 作用 是 仿真 源 ISA; 从 这 点 来 说 ， 它 与 进程 虚拟 机 有 很 多 相似 性 。 例 
如 ， 仿 真 经 常 是 分 多 个 阶段 来 完成 的 ， 核 心 是 对 指令 进行 动态 翻译 并 存 到 代码 cache 中 。 但 是 与 
进程 虚拟 机 还 是 有 很 多 不 同 的 地 方 ， 其 中 最 重要 的 两 个 是 : 

1. 在 ISA 级 别 必 须 有 内 在 的 兼容 性 (参见 3.2 节 ) ， 而 不 是 ABI 级 别 上 。 因 为 虚拟 化 是 在 
ISA 上 发 生 的 ， 不 但 要 仿真 用 户 级 指令 集 ， 而 且 还 要 仿真 整个 系统 级 ISA。 这 包含 了 存储 器 体系 B31 
结构 ， 例 如 ， 缺 页 兼容 性 必须 被 保持 。 另 外 ，LO 操作 也 必须 在 硬件 级 进行 处 理 ， 而 不 是 在 进程 
虚拟 机 抽象 的 系统 调用 级 。 

2. 使 用 虚拟 机 实现 的 目的 是 为 了 改善 性 能 、 功 耗 效率 和 设计 简单 性 ， 或 者 是 这 些 目的 的 组 
合 。 兼 容 性 是 一 个 需求 ， 但 并 不 是 构造 协同 设计 虚拟 机 的 动机 。 

协同 设计 虚拟 机 同样 也 保持 了 一 些 与 传统 超标 量 处 理 器 设计 的 相似 性 (图 7-1) : 二 者 都 
实现 了 从 源 ISA 到 在 硬件 上 执行 的 目标 ISA 之 间 的 翻译 。 区 别 在 于 ， 一 个 使 用 软件 完成 而 另 
一 个 用 硬件 。 但 是 我 们 应 该 注意 到 ， 目 前 已 经 有 了 很 多 类 似 于 协同 设计 虚拟 机 的 新 型 处 理 器 
实现 ,通常 是 基于 微 码 或 专用 协 处 理 器 的 设计 ， 而 不 是 像 虚 拟 机 这 样 使 用 软件 来 完成 或 协助 
翻译 (Debaere 和 Van Campenhout 1990; Nair 和 Hopkins 1997; Chou 和 Shen 2000; Patel 和 
Lumetta 2001 ) 。 不 管 怎样 ， 在 这 些 基 于 CISC ISA 的 传统 超标 量 设计 中 硬件 必须 以 某 种 形式 承 
担 起 从 CISC 指令 到 能 直接 执行 的 RISC 微 操 作 码 之 间 的 复杂 分 解 。 毫 无 疑问 ， 这 是 导致 硬件 
设计 验证 成 本 高 的 原因 之 一 ， 因 为 设计 一 旦 付 诸 于 硅 实 现 就 很 难 调试 ,而且 车 想 再 进行 设计 
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改变 代价 就 很 昂贵 了 。 
仅仅 依赖 硬件 翻译 也 限制 了 ISA 翻译 所 能 实现 的 功能 扩展 。 例 如 ， 实 现 指令 间 优 化 是 很 困 
难 的 ， 传 统 的 超标 量 处 理 器 实现 都 没有 相应 的 功能 ， 这 可 以 用 图 7-3 来 说 明 。 使 用 传统 的 硬件 翻 
译 (如 图 7-3a)， 每 条 源 指 令 相互 独立 地 被 翻译 成 微 操作 码 ， 即 类 似 于 上 下 文 无 关 的 方式 。 另 一 
方面 ， 如 果 采 用 软件 翻译 和 优化 ， 如 图 7-3b 所 示 ， 源 指令 就 能 以 成 块 的 形式 进行 翻译 和 优化 ， 
从 而 提供 了 更 大 的 优化 空间 (May 1987 ) 。 更 进一步 ， 传 统 的 硬件 翻译 方法 需要 大 量 的 硬件 资源 
将 源 指令 翻译 成 可 执行 形式 并 调度 运行 ， 使 得 功 耗 不 断 增加 。 
source ——> target source ———> target 
micro-op a TO 
instr. 1 micro-op b instr. 1 instr. A 


instr. 2 micro-op c instr. 2 instr. B 
instr. 3 micro-op d instr. 3 instr. C 


/ micro-opp 





instr. n micro-op q instr. n 
micro-op 
a) 上 下 文 无 关 翻 译 。 即 每 条 源 b) 上 下 文 相 关 翻 译 ， 源 指令 块 
指令 都 翻译 成 目标 指令 被 翻译 成 目标 指令 块 


图 7-3 代码 翻译 方法 


协同 设计 虚拟 机 并 不 像 其 他 虚拟 机 那样 被 广泛 使 用 ， 只 有 很 少 的 商用 例子 ， 而 且 很 多 还 处 
于 研究 之 中 。 之 所 以 对 其 感 兴趣 是 因为 其 具有 支持 处 理 器 设计 重大 创新 的 潜在 能 力 。 更 进一步 ， 
很 多 协同 设计 虚拟 机 设计 中 所 采用 的 硬件 技术 可 以 被 用 来 扩展 现 有 的 ISA， 从 而 使 得 其 他 类 型 的 
虚拟 机 ， 如 进程 虚拟 机 和 HLL 虚拟 机 都 可 以 在 标准 平台 上 更 加 高 效 地 实现 。 

在 本 章 剩 下 的 部 分 中 ,我们 将 描述 协同 设计 虚拟 机 的 实现 ， 主 要 包括 两 方面 的 内 容 : 一 是 如 
何 使 得 协同 设计 虚拟 机 上 的 仿真 进程 更 加 高 效 ; 另外 就 是 讲述 通过 协同 设计 虚拟 机 实现 所 能 获 
得 的 性 能 和 /或 有 效 性 。 本 章 的 大 部 分 内 容 都 是 专注 于 如 何 使 用 协同 设计 虚拟 机 实现 传统 的 ISA, 
如 Transmeta Crusoe 实现 了 1A-32 ISA。 最 近 几 年 正 是 这 种 协同 设计 虚拟 机 吸引 了 众多 关注 ， 尤 其 
是 研究 人 员 的 关注 。 因 此 ， 本 章 所 描述 的 大 部 分 技术 集中 于 如 何 快速 仿真 传统 的 ISA。 相 比 之 
F, IBM AS/400 使 用 比 传统 ISA 更 高 一 级 的 源 ISA， 因 此 也 就 更 加 依赖 于 软件 创新 而 不 是 硬件 
创新 。AS/400 的 技术 将 主要 在 7. 8 节 作 为 一 个 实例 来 讨论 。 


7.1 存储 器 和 寄存 器 的 状态 映射 


相对 于 传统 的 虚拟 机 ， 协 同 设计 虚拟 机 的 状态 映射 要 简单 得 多 。 因 为 目标 ISA 是 专门 针对 
源 ISA 的 ， 主 机 寄存 器 文件 就 可 以 设计 得 足够 大 以 满足 客户 机 的 需求 ， 同 时 使 用 便 得 式 寄存 器 
来 增强 性 能 和 /或 简化 翻译 过 程 。 我 们 以 IBM Daisy 处 理 器 中 使 用 的 Power PC 整 型 寄存 器 状态 映 
射 为 例 (Ebcioglu 等 ，2001) ， 如 图 7-4 所 示 。 其 中 Power PC 的 整 型 寄存 器 m 到 r31 被 直接 映射 
到 主机 寄存 器 RO 到 R31。 分 支 单元 计数 器 和 链接 寄存 器 被 映射 到 R32 和 R33, Power PC 的 MQ 
寄存 器 本 来 是 用 于 乘法 和 除法 运算 的 ， 但 是 现在 被 废弃 了 ， 在 原始 的 Daisy 系统 中 其 被 映射 到 主 
机 的 寄存 器 R34。 寄 存 器 R35 被 设置 为 常数 0， 以 仿真 Power PC ISA 中 四 的 常数 0 功能 。 最 后 ， 
R36 到 R63 是 便签 式 寄 存 器 ， 主 要 由 VMM 仿真 器 用 于 保存 常数 、 代 码 优化 中 产生 的 推断 值 和 指 
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向 VMM 表 的 指针 。 


PowerPC Daisy host 





图 7-4 将 客户 Power PC 整 型 寄存 器 映射 到 主机 平台 的 寄存 器 组 ， 在 IBM Daisy 中 使 用 


协同 设计 系统 虚拟 机 存储 器 映射 的 一 个 关键 要 素 就 是 隐藏 存储 器 。 隐 藏 存 储 器 是 VMM 、 代 
W cache、 其 他 仿真 软件 和 表 所 驻 留 的 保留 存储 空间 ， 可 以 是 隐藏 逻辑 〈 虚 拟 ) 存储器， 也 可 以 
是 隐藏 实际 存储 器 。 对 于 传统 客户 软件 来 说 ， 隐 藏 存储 器 是 完全 不 可 见 的 。 

由 于 系统 复位 后 VMM 就 立即 掌握 了 控制 权 ， 基 本 上 从 一 开始 它 就 控制 着 系统 〈 包 括 引导 过 
E), ， 所 以 可 以 保证 常规 软件 无 法 看 到 隐藏 存储 器 的 存在 。 当 客户 OS 开始 引导 (在 VMM 控制 
F) 并 检查 有 多 少 实际 的 存储 器 可 用 时 (如 通过 读 控 制 寄 存 器 ) VMM 将 拦截 该 读 操作 ， 并 在 
返回 结果 中 不 包括 实际 的 隐藏 存储 器 。 任 何 常规 客户 软件 对 隐藏 存储 器 的 访问 都 将 导致 出 现 访 
问 存储 器 不 存在 的 行为 〈 一 般 是 产生 一 个 自 陷 ) 。 

图 7-5 示 出 了 协同 设计 虚拟 机 中 实际 存储 器 的 一 种 实现 。 阴 影 部 分 的 主 存 是 隐藏 的 ， 只 能 通 
过 VMM 来 访问 。 阴 影 块 包括 目标 ISA 指令 和 VMM 表 。 隐 藏 区 域 大 小 是 固定 的 ， 并 且 在 系统 初 
始 化 后 不 再 改变 。 目 标 机 器 要 人 么 从 代码 cache 中 取 指 ， 其 中 的 指令 是 经 过 翻译 后 保存 的 目标 ISA 
指令 ， 要 么 执行 VMM 代码 ; 因此 指令 cache 层次 仅仅 保存 有 目标 ISA 指令 ， 其 中 的 指令 对 于 客 
户 软 件 是 不 可 见 的 。 












代码 cache Bau FR 
隐藏 rm 
ij a 
ga | | 
存储 器 


图 7-5 协同 设计 虚拟 机 存储 系统 。 阴 影 部 分 是 主机 指令 和 VMM 数据 驻 留 区 域 
对 于 存储 器 的 逻辑 地 址 空间 映射 来 说 ， 最 简单 的 方法 就 是 允许 客户 OS 管理 存储 器 常规 ( 非 
隐藏 ) 部 分 ， 也 就 是 使 用 客户 ISA 的 地 址 转换 结构 实现 客户 虚 地 址 的 映射 。 但 是 对 于 隐藏 存储 
器 的 映射 和 寻 址 有 多 种 选择 ， 其 中 一 些 如 图 7-6 所 示 。 
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b) 使 用 独立 的 地 址 映射 
实际 存储 器 





c) 使 用 实际 地 址 
图 7-6 隐藏 存储 器 映射 方式 


在 第 一 种 选择 中 ， 隐 藏 的 逻辑 存 储 器 和 客户 机 逻辑 存储 器 共享 存储 空间 (图 7-6a) 。 常 规 存 
储 器 的 寻 址 和 地 址 转换 都 按 传 统 客户 系统 的 方式 来 处 理 ， 所 以 主机 地 址 空间 必须 足够 大 ， 以 使 
得 客户 空间 可 以 映射 到 其 中 。 由 于 客户 机 存储 空间 都 是 按 标准 的 大 小 设计 的 (如 32 或 64 位 )， 
从 而 主机 存储 空间 标准 必须 更 大 〈 如 64 BK 128 位 )， 或 是 更 大 的 非 标准 大 小 (如 33 或 65 位 )。 
这 种 方法 很 直接 ,但 是 逻辑 空间 的 膨胀 可 能 使 得 主机 ISA 要 人 么 很 难看 ， 要 么 实现 成 本 很 高 〈 正 
好 违背 了 协同 设计 虚拟 机 的 初衷 )。 

第 二 种 选择 是 含有 两 个 独立 的 逻辑 空间 ， 一 个 是 隐藏 的 存储 器 空间 ， 另 一 个 是 常规 的 存储 
器 空间 〈 图 7-6b) 。 所 有 的 VMM 软件 、 代 码 cache 和 相关 的 表 等 都 放置 到 隐藏 的 存储 空间 ， 然 
后 映射 到 隐藏 的 实际 存储 器 中 。 这 种 实现 意味 着 执行 load 和 store 指令 时 必须 从 两 个 映射 表 中 选 
择 ( 例 如 ， 使 用 不 同 的 操作 码 来 选择 映射 表 ， 或 者 使 用 模式 位 )。 需 要 注意 的 是 ， 所 有 取 指 都 来 
自 于 隐藏 存储 器 地 址 。 由 于 VMM 控制 着 所 有 被 执行 的 指令 (或 者 是 VM 的 翻译 指令 或 者 
VMM 翻译 后 的 目标 指令 ) ， 所 以 VMM 可 以 保证 load 和 store 指令 的 正确 执行 。 

第 三 种 选择 是 使 用 实际 地 址 来 直接 对 隐藏 存储 器 寻 址 ， 例 如 访问 隐藏 存储 器 时 可 以 旁 
路 地 址 转换 (图 7-6c) 。 直 觉 上 ， 这 只 是 第 二 种 选择 的 特殊 形式 。 实 现 这 种 方法 的 一 种 选 
择 是 使 用 两 种 不 同 的 load 和 store 指令 ,其 中 一 种 直接 访问 实际 存储 器 ， 另 一 种 通过 客户 映 
射 表 访 存 。 同 样 需 要 注意 的 是 ，VMM 其 至 可 以 在 访问 常规 实际 存储 器 时 选择 旁 路 地 址 转 
换 。 实 际 上 ，VMM 一 般 都 在 实际 地 址 空间 上 进行 操作 ,仅仅 在 仿真 客户 软件 的 时 候 才 使 用 
虚 地 址 空间 。 基 于 这 种 方法 ， 可 以 使 用 一 个 模式 位 来 选择 访 存 寻 址 类 型 ， 而 不 采用 基于 操 
作 码 的 方式 。 

对 于 隐藏 存储 器 而 言 ， 很 重要 的 一 点 是 确定 其 所 达到 的 存储 层次 。 最 简单 的 策略 是 仅仅 在 
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RAM 中 保存 隐藏 存储 而 不 允许 其 扩展 到 二 级 存储 (RER). 。 如 果 隐 藏 存储 器 扩展 到 磁盘 一 级 ， 
那么 磁盘 (及 其 使 用 的 总 线 地 址 ) 都 必须 对 客户 OS 隐藏 。 更 进一步 ，VMM 必须 担负 起 隐藏 的 
二 级 存储 管理 的 责任 ， 包 括 其 可 能 支持 的 分 页 机 制 。 由 于 VMM 和 代码 cache 通常 都 比较 小 (一 
般 是 数 十 兆 字 节 ) ， 大 部 分 的 协同 设计 处 理 器 方案 和 实现 都 采用 无 磁盘 方式 ， 即 将 VMM 软件 存 
储 在 ROM 中 ， 这 种 方式 使 得 系统 设计 更 加 简单 。 隐 藏 存 储 器 的 二 级 存储 扩展 将 在 7.5 节 进 行 


讨论 。 
7.2 自修 改 与 自 引 用 代码 


在 协同 设计 虚拟 机 中 ， 自 修改 和 自 引用 代码 主要 使 用 3.4. 2 章节 所 述 的 技术 来 进行 处 理 。 
如 前 节 所 述 ， 最 简单 的 办 法 是 保持 原始 客户 OS 虚实 页 映射 的 完整 无 缺 。 由 于 源 代 码 在 客户 机 
的 存储 器 中 是 以 原始 形式 保存 的 ， 所 以 任何 对 指令 页 的 load 和 store 访问 都 可 以 被 正确 地 
处 理 。 

对 于 自修 改 代码 ， 任 何 对 客户 代码 区 域 的 写 尝试 都 将 被 捕获 。 这 可 以 通过 对 源 代码 区 域 的 
写 保护 来 最 简单 地 实现 ， 任 何 对 该 区 域 的 写 操作 都 将 产生 陷阱 ， 从 而 反映 到 VMM 中 。 随 后 
VMM 将 刷新 代码 cache 中 所 有 从 修改 页 翻译 来 的 代码 ， 并 人 允许 对 该 页 写 人 。 

在 一 个 典型 的 进程 虚拟 机 中 (如 第 3 章 所 述 )，VMM 可 以 通过 调用 主机 OS 中 改变 页 表 
保护 状态 的 系统 调用 来 对 页 进行 写 保护 。 但 在 协同 设计 虚拟 机 中 就 要 相对 复杂 一 些 ， 因 为 页 
表 是 由 客户 OS 自己 而 不 是 VMM 来 维护 的 。 这 其 中 包括 页 表 本 身 所 在 的 页 ， 对 客户 页 表 的 页 
保护 状态 修改 将 违反 保持 所 有 客户 存储 器 状态 完整 无 缺 的 原则 。 最 直接 的 解决 方式 就 是 使 用 
TLB 来 强制 对 客户 代码 页 的 写 保 护 。 如 果 TLB 由 VMM 来 管理 (通常 也 是 如 此 )， 那么 可 以 
在 每 个 TLB 表 项 增加 专门 的 写 保护 位 ，VMM 使 用 该 位 来 检测 自修 改 代 码 。 当 一 个 代码 页 表 
项 被 加 载 到 TLB 中 ，VMM 将 设置 该 写 保护 位 。 为 了 跟踪 源 代 码 页 ， 对 于 所 有 含有 已 经 翻译 
(或 解释 ) 过 代码 的 客户 虚 页 ，VMM 都 将 它们 保存 在 一 个 表 中 。 这 个 过 程 是 在 代码 翻译 或 者 
解释 的 时 候 完成 的 。 

为 了 减少 处 理 自修 改 代码 所 带 来 的 性 能 损失 〈 包 括 真实 和 伪 自 修改 ) ， 可 以 采用 第 3.4.2 节 
中 描述 的 基于 软件 的 方法 。 此 外 ， 由 于 协同 设计 虚拟 机 的 优势 ， 还 可 以 使 用 专门 的 硬件 来 减少 由 
于 伪 自 修改 代码 所 带 来 的 性 能 损失 。 在 Transmeta Crusoe 中 ,采用 了 专门 的 硬件 结构 来 加 速 对 细 
粒度 写 保护 的 检测 (Dehnert 等 ，2003 ; Banning 等 ，2002) 。 这 个 专门 的 硬件 结构 由 VMM 管理 ， 
类 似 于 一 个 小 的 软件 管理 的 TLB。 其 中 写 保护 表 用 来 保存 源 代 码 页 细 粒 度 的 写 保护 掩 码 (3.4.2 
节 ) ， 硬 件 比较 逻辑 使 用 写 保 护 掩 码 位 来 比较 潜在 的 错误 写 人 地 址 〈 图 77)。 正 常 TLB 完成 地 
址 转换 工作 后 ， 实 际 地 址 将 同时 发 送 给 写 保 护 表 。 若 正常 TLB 检测 到 写 保护 错误 ， 较 小 的 写 保 
护 表 将 自动 过 滤 掉 那些 不 是 对 翻译 代码 域 的 写 操作 。 如 前 所 述 ，TLB 写 保护 位 是 专门 用 作 保 护 
代码 页 的 。VMM 只 将 正在 执行 写 操作 的 一 组 源 代码 页 的 写 保护 掩 码 加 载 到 写 保护 表 中 ， 通 常数 
量 都 很 少 ， 甚 至 没有 。 

最 后 一 点 是 对 客户 代码 存储 器 的 YO 写 操 作 。 如 果 LO 设备 对 一 个 客户 代码 页 进行 写 操 
作 ， 那 么 这 个 写 操作 也 必须 被 捕获 。VMM 通过 跟踪 代码 cache 中 当前 包含 的 实际 客户 页 面 来 
达到 该 目的 。 因 此 ，VMM 就 需要 为 VO 写 操 作 维 护 一 个 硬件 表 ， 最 简单 的 方法 就 是 在 存储 控 
制 器 中 实现 该 表 。VMM 为 所 有 包含 客户 代码 页 的 实 页 在 该 表 中 建立 一 个 表 项 。 任 意 对 这 些 页 
的 store 操作 都 将 导致 VMM 的 中 断 ， 随 后 VMM 将 刷新 代码 cache 中 从 该 客户 代码 页 翻译 来 的 
内 容 。 
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页 号 
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图 777 源 代 码 域 细 粒 度 的 写 保护 方式 。 如 果 TLB 指示 有 一 个 写 错误 并 且 写 保护 表 上 有 一 个 不 命中 或 者 
比较 逻辑 指示 写 地 址 是 一 个 写 保护 的 细 粒 度 代码 域 ， 一 个 错误 将 报告 给 VMM 


7.3 代码 cache 的 支持 


如 同 其 他 仿真 虚拟 机 一 样 ， 协 同 设 计 虚 拟 机 实现 中 的 一 个 核心 要 素 是 代码 cache。 因 为 性 能 
和 效率 是 协同 虚拟 机 的 主要 考虑 因素 ， 而 代码 cache 的 性 能 又 是 最 重要 的 。 因 此 考虑 哪些 因素 在 
使 用 代码 cache 时 可 能 导致 性 能 损失 是 很 有 用 的 。 由 于 保存 在 代码 cache 中 的 翻译 块 大 小 是 不 相 
等 的 ， 因 此 相对 于 传统 的 块 大 小 相等 的 高 速 缓存 而 言 ， 对 代码 cache 的 访问 将 更 加 复杂 。 对 代码 
cache 的 访问 首先 是 将 源 PC 值 (SPC) 使 用 散 列 到 映射 表 的 某 一 个 表 项 ， 然 后 读 出 保存 在 上 映射 
表 该 项 中 的 SPC 值 (或 tag)， 并 通过 比较 两 者 来 判断 是 否 命 中 (图 2-28)。 若 命中 ， 则 保存 在 映 
射 表 该 项 中 的 目标 PC 值 (TPC) 将 被 用 来 访问 代码 cache。 若 对 映射 表 的 第 一 次 检测 不 命中 ， 
那么 还 需要 对 该 表 进 行 额 外 的 检测 ， 以 处 理 潜在 的 散 列 冲突 。 

由 于 多 次 存储 器 访问 和 间接 跳 转 的 存在 ， 代 码 cache 的 访问 延迟 可 能 会 很 长 。 一 个 单独 的 分 
派 表 查找 操作 可 能 就 需要 执行 10 ~ 15 条 指令 的 时 间 ， 这 将 导致 很 显著 的 性 能 损失 。 而 在 简单 的 
代码 cache 实现 中 ， 所 有 的 控制 转移 指令 (分 支 和 跳 转 ) 都 需要 执行 一 个 映射 表 查 找 操作 。 为 了 
提高 直接 跳 转 和 分 支 的 性 能 ， 超 块 链 (图 229) 是 一 个 有 效 的 解决 方案 。 基 于 这 种 方法 ， 直 接 
跳 转 和 分 支 可 以 完全 不 需要 查找 映射 表 。 但 是 间接 控制 转移 就 要 复杂 得 多 ， 因 为 寄存 器 间接 跳 
转 的 目标 地 址 保存 在 寄存 器 中 ， 而 该 地 址 在 执行 中 是 可 变 的 。 更 复杂 的 是 该 寄存 器 中 保存 的 地 
址 是 SPC 值 ， 而 不 是 TPC 值 。 这 就 意味 着 在 每 次 间接 跳 转 指令 执行 时 都 要 将 寄存 器 中 保存 的 源 
跳 转 地 址 从 SPC 翻译 到 TPC。 一 种 直接 的 方法 是 在 每 次 间接 跳 转 时 都 查找 映射 表 , 但 是 如 前 所 
述 ， 这 是 极其 低速 的 ， 所 以 间接 跳 转 将 带 来 显著 的 性 能 损失 。 

为 了 节省 每 一 条 间接 跳 转 的 宕 查找 开销 ， 很 多 动态 优化 器 /翻译 器 都 实现 了 某 种 基于 软件 的 
跳 转 目标 预测 机 制 (参见 2.7.2 节 ， 并 参看 图 7-8) 。 在 该 机 制 中 一 个 指令 序列 将 寄存 器 中 保存 
的 间接 SPC 地 址 和 翻译 时 插入 的 一 些 SPC 地 址 比较 ， 若 匹配 则 意味 着 预测 正确 ， 并 执行 一 条 内 
嵌 的 到 相应 TPC 的 直接 跳 转 指令 ; 若 没 有 匹配 ， 将 跳 转 至 慢 速 的 映射 表 查找 代码 。 

但 是 在 某 种 意义 上 软件 预测 的 方法 性 能 是 有 限 的 。 首 先 ， 若 软件 预测 不 正确 ， 由 于 分 派 表 查 
找 将 不 得 不 执行 ， 那 么 前 面 的 比较 测试 时 间 就 完全 浪费 了 。 其 次 ， 有 很 多 间接 跳 转 是 很 难 用 这 种 
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方法 预测 的 ， 例 如 ， 有 多 个 调用 者 的 程序 返回 将 有 很 多 经 常 变化 的 目标 地 址 。 间 接 跳 转 问题 可 能 
是 软件 代码 cache 系统 中 最 主要 的 性 能 损失 因素 了 。 


if (CRx) == #addr_1) goto #target_1 
else if ((Rx) == #addr_2) goto #target_2 





else map_lookup (Rx) ; do Tt the slow way 


图 7-8 软件 间接 跳 转 预测 的 例子 
7.3.1 跳 转 TLB 


在 协同 设计 虚拟 机 中 ， 可 以 采用 专门 设计 的 映射 表 硬件 缓存 来 实现 高 开销 的 软件 映射 表 
(Gschwind 1998a; Kim 和 Smith 2003 ) 。 概 念 上 它 与 虚拟 存储 系统 中 使 用 的 软件 管理 的 地 址 TLB 
很 类 似 ， 我 们 称 这 样 的 表 为 TLB (Jump Translation Lookaside Buffer) 。 一 个 JTLB 如 图 7-9 所 示 。 
每 个 JTLB 的 表 项 包括 一 个 tag 和 一 个 TPC 值 。JTLB 可 以 是 全 相 联 、 组 相 联 或 者 直接 映射 。 图 中 
所 示 的 是 两 路 组 相 联 的 例子 。VMM 负责 将 表 项 内 容 写 人 JILB ， 其 中 总 是 包含 正确 的 地 址 翻译 
〈 这 是 可 以 保证 的 ， 例 如 如 果 请 求 将 一 个 翻译 块 移出 代码 cache， 那 么 就 必须 从 JTLB 中 移 除 相应 的 
表 项 ) JTLB 是 通过 SPC 的 散 列 值 访 问 的 (可 以 像 传统 的 TLB 或 缓存 中 一 样 使 用 高 位 地 址 ， 也 可 
以 使 用 更 加 复杂 的 散 列 函数 ) 。 散 列 计算 以 后 ， 相 应 的 tag 值 将 和 完整 或 部 分 的 SPC (A (BUR FAK 
IRR ITER. Æ JTLB 命中 ， 表 项 中 保存 的 TPC 值 也 就 是 代码 cache 中 的 跳 转 目标 地 址 。 

Write_JTLB 





图 7-9 跳 转 TLB。 这 里 使 用 两 路 组 相 联 表 


JTLB 可 以 使 用 两 种 方式 集成 到 协同 设计 ISA 中 。 第 一 种 是 使 用 JITLB_Lookup 指令 ， 其 通过 
一 个 寄存 器 中 的 SPC 地 址 访问 ITLB, ， 读 出 TPC 并 放置 到 另 一 个 寄存 器 中 。 第 三 个 寄存 器 (或 条 
件 码 ) 指明 JTLB 是 否 命中 。 如 图 7-10 例子 所 示 。JTLB_Lookup 从 Rk 中 获得 SPC 值 ， 并 将 相应 
的 TPC 值 放 入 Ri ( 若 命 中 )， 同 时 把 命中 /不 命中 结果 写 人 到 Rj。 紧 跟 的 一 条 指令 是 基于 Rj 的 
条 件 跳 转 ; 若 不 命中 ， 控 制 将 转向 map_lookup 程序 段 。 这 个 程序 段 将 把 正确 的 代码 cache 映射 放 
人 到 JTLB 中 (车 相应 的 代码 已 经 翻译 ) ;否则 VMM 将 开始 解释 或 翻译 所 访问 的 代码 。 另 一 种 
将 JTLB 集成 到 ISA 中 的 简单 方法 是 把 查找 结合 到 常规 的 跳 转 指令 中 ， 如 Lookup_Jump Rk 指令 
就 可 以 在 命中 的 时 候 跳 转 到 TPC， 否 则 失败 。 


JTLB_Lookup Ri, Rj, Rk ; TPC to Ri, hit/miss to Rj 
Jump Ri, Rj==0 ; conditional indirect jump 
Jump map_lookup ; do it the slow way 


FA 7-10 访问 JTLB 的 一 个 指令 序列 
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在 遇 到 跳 转 指 令 时 ， 这 种 方法 仍然 需要 将 取 指 暂停 ， 直 到 JTLB 访问 结束 并 执行 完 跳 转 。 男 
一 种 附加 的 增强 方法 是 使 用 传统 的 分 支 目标 缓冲 (BTB ) ， 在 Lookup_Jump 取 指 后 就 对 TPC 值 进 
行 预测 〈 见 图 7-11) ， 随 后 立即 从 代码 cache 中 预测 的 指令 流 处 开始 取 指 。 同 时 ，Lookup_Jump 
指令 也 在 流水 线 中 继续 执行 。 当 该 指令 发 射 并 访问 了 JTLB 后 ， 预 测 将 被 检验 。 预 测 错误 将 导致 
刷新 流水 线 ， 并 从 正确 的 TPC 处 重新 取 指 。JTLB 不 命中 也 将 导致 刷新 ， 并 导致 原 代 码 序列 失败 
(fall-through) (将 跳 转 至 map_lookup 程序 段 ) 。 

Lookup_Jump 指令 
(流水 中 
寄存 器 文件 JTLB 








BTB 


Look_Jump 
指令 PC 





下 一 条 预测 取 指 TPC TPC 









BTB 预测 错误 : 将 取 指 重 定 
向 JTLB 中 跳 转 目标 TPC 


BTB 预测 正确 








ii Pe me 
JTLB 不 命中 : 重 定向 取 指 至 fall-through 地 址 
图 7-11 {E BTB 预测 TPC 的 增强 型 Lookup_Jump 指令 


7.3.2 ” 双 地 址 的 返回 地 址 栈 


不 管 是 软件 预测 还 是 JTLB ， 当 加 入 BTB 预测 并 且 预 测 准 确 率 很 高 时 ， 都 将 非常 有 效 。 对 于 
很 多 间接 跳 转 来 说 都 是 如 此 ， 但 是 程序 调用 返回 却 往往 不 是 这 种 情况 。 问 题 在 于 程序 经 常 在 多 
个 不 同 地 方 被 调用 ， 所 以 跳 转 返回 也 可 能 有 多 个 经 常 改 变 的 目标 地 址 。 

为 了 解决 该 问题 ， 很 多 常规 微 处 理 器 使 用 了 硬件 返回 地 址 栈 (RAS) 来 精确 预测 返回 指令 
目标 地 址 (Kaeli 和 Emma 1991) 。 当 出 现 程序 调用 ( 跳 转 ) 的 时 候 模 仿 软件 程序 栈 ， 将 失效 
(fall-through) PC 压 和 人 硬件 预测 栈 中 。 但 是 在 协同 设计 虚拟 机 中 却 不 能 像 常规 处 理 器 中 那样 使 用 
这 种 方法 ， 因 为 保存 的 返回 目标 地 址 是 SPC 值 ， 而 实际 需要 的 预测 返回 地 址 必须 是 相应 的 TPC 
值 。 更 坏 的 情况 是 ， 若 程序 跳 转 发 生 在 所 翻译 超 块 的 尾部 〈 很 多 情况 都 是 这 样 的 ) ， 那 么 跳 转 指 
令 后 的 指令 地 址 就 不 是 正确 的 返回 目标 地 址 (正确 的 地 址 应 该 是 其 他 超 块 的 起 点 )。 

在 协同 设计 虚拟 机 中 ， 一 个 特殊 的 双 地 址 RAS 可 以 用 作 返 回 地 址 预测 (Gschwind 1998b; 
Kim 和 Smith 2003 ) 。 这 种 双 地 址 RAS (DRAS) 的 每 个 人 口 包含 一 个 地 址 对 ， 即 返回 地 址 的 
SPC 值 及 相应 的 TPC 值 ， 如 图 7-12 所 示 。DRAS 可 以 看 作 是 FX!32 ( 见 章 节 2.7.3) 中 使 用 的 
隐藏 栈 机 制 的 硬件 实现 。 

一 条 专门 的 push-DRAS 指令 用 于 将 返回 地 址 对 压 人 DRAS。 在 超 块 创建 的 时 候 确定 返回 目的 
SPC 值 是 很 直接 的 ， 而 确定 相应 的 TPC 值 类 似 于 建立 超 块 链 。 若 相应 的 TPC 值 在 超 块 创建 时 不 
可 知 ，push-DRAS 指令 的 TPC 域 将 被 置 为 一 个 无 效 地 址 。 以 后 当 返 回 目标 所 在 的 超 块 已 经 创建 
时 ， 无 效 地 址 将 被 有 效 的 TPC 值 更 新 。 或 者 ， 若 系统 中 有 JTLB， 那 么 在 程序 调用 的 时 候 访 问 
JTLB， 并 将 TPC 值 压 人 预测 RAS。 在 任何 一 种 情况 下 ， 预 测 RAS 应 该 在 所 有 的 程序 调用 和 返回 
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进行 压 栈 / 弹 栈 ， 有 时 其 至 用 无 效 的 TPC 值 来 维护 栈 的 正确 次 序 。 


Push_DRAS 指令 















ma sec 
预测 TPC 
aa a 
返回 指令 
oe we | 





双 地 址 返回 地 址 栈 
7-12 ” 双 地 址 返回 地 址 栈 。Push_DRAS 指令 将 SPC 和 TPC 都 压 和 人 栈 。 返 回 指令 使 用 TPC 作为 预测 


当 一 条 返回 指令 执行 取 指 时 ， 下 一 取 指 地 址 使 用 弹出 的 TPC 值 来 预测 。 相 应 的 SPC 值 将 随 
着 返回 指令 在 流水 线 中 向 前 推进 ， 并 在 返回 指令 发 射 后 与 相应 寄存 器 值 相 比 较 。 若 两 者 不 匹配 
就 说 明 RAS 预测 失效 ， 那 么 取 指 就 需要 重 定向 ， 可 通过 跳 转 至 分 发 表 代码 来 完成 重 定向 。 在 预 
测 错误 的 情况 下 可 以 通过 将 返回 跳 转 指 令 跳 转 至 下 一 条 指令 来 实现 上 述 机 制 ， 下 一 条 指令 就 是 
一 条 跳 转 至 分 发 表 代码 指令 。 需 要 指出 的 是 ， 若 同时 使 用 了 JTLB 机 制 ， 就 可 以 用 单 RAS 代替 双 
E RAS, BREA TPC 值 ， 可 依赖 JTLB 来 提供 正确 的 TPC 值 。 


7.4 实现 精确 陷阱 


如 同 其 他 虚拟 机 一 样 ， 在 协同 设计 虚拟 机 中 实现 精确 陷阱 是 一 个 重要 问题 。 一 般 可 以 使 用 
与 第 3 章 和 第 4 章 中 类 似 的 技术 实现 。 也 就 是 说 ， 在 翻译 的 过 程 中 优化 软件 保存 软件 检查 点 。 若 
包含 代码 移动 ， 寄 存 器 活动 范围 将 被 扩展 以 保证 发 生 陷 阱 时 从 检查 点 恢复 。 然 后 从 发 生 陷 阱 指 
令 前 面 的 检查 点 开始 解释 执行 以 保证 正确 、 精 确 的 状态 。 在 协同 设计 虚拟 机 中 ， 这 个 方法 是 很 容 
易 的 ， 因 为 主机 ISA 可 以 设计 包含 足够 的 寄存 器 ， 从 而 活动 范围 可 以 很 容易 地 扩展 而 不 会 对 寄 
存 器 使 用 带 来 压力 。 基 于 软件 的 方法 限制 了 可 以 处 理 的 代码 移动 类 型 (参见 4.5.1 节 )。 例 如 ， 
很 多 指令 不 能 移动 到 store 指令 后 面 。 通 过 对 检查 点 加 入 硬件 支持 可 以 消除 对 代码 移动 的 限制 ， 
从 而 放宽 对 寄存 器 活动 范围 扩展 的 需求 。 


7. 4.1 检查 点 的 硬件 支持 


在 协同 设计 虚拟 机 中 ,设计 者 可 以 选择 使 用 硬件 来 支持 翻译 代码 中 的 精确 陷阱 处 理 。 这 种 
方法 的 基本 思路 就 是 在 进入 每 个 翻译 块 时 使 用 硬件 设置 检查 点 (图 7-13a)。 若 所 翻译 的 块 中 发 
生 陷 阱 ， 可 以 通过 硬件 来 恢复 翻译 块 开 始 时 的 状态 。 这 时 ， 像 软件 方法 一 样 使 用 解释 来 提供 精确 
的 例外 状态 。 基 本 流程 如 图 7-13b 所 示 。 

图 7-14 示 出 了 支持 检查 点 的 机 制 ( Klaiber 2000 ) 。 当 进入 一 个 新 的 翻译 抉 时 ， 前 一 块 的 状 
态 就 被 提交 ， 同 时 设置 一 个 新 的 检查 点 (图 7-14a)。 设 置 寄存 器 检查 点 是 很 简单 的 。 主 机 硬件 
可 以 支持 客户 寄存 器 的 隐藏 拷贝 (Smith, Lam 和 Horowiz 1990) ， 通 过 将 寄存 器 内 容 一 起 复制 到 
隐藏 寄存 器 来 设置 寄存 器 检查 点 。 采 用 恰当 的 硬件 设计 (包括 电路 布局 ) 可 以 在 很 少 的 时 钟 周 
期 内 完成 这 个 复制 过 程 〈 甚 至 只 需要 1 个 周期 ) 。 另 一 可 选 的 方案 是 采用 细 粒 度 方式 来 使 用 隐藏 
寄存 器 〈Nystrom 等 ，2001 ) ， 以 避免 检测 到 例外 时 整个 代码 块 的 计算 都 被 丢弃 。 
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设置 检查 点 一 一 > 


设置 检查 点 一 一 > 







ra | we 


重 存 检查 点 | 源 代 码 





设置 检查 点 一 一 > 


a) ACOA Aa >) 遇 到 陷阱 时 将 从 检查 点 恢复 ， 在 产生 陷阱 的 
所 ij 源 代码 块 起 点 重新 开始 解释 


图 7-13 ”硬件 支持 检查 点 






oe 在 提交 点 进行 影子 备份 ， 释 放 例外 时 ， 从 影子 复 本 





门 存储 并 建立 新 的 门 存储 恢复 , 清除 门 存储 并 
) 建立 新 的 门 存储 
Toe 
on 
门 存储 缓冲 门 存储 缓冲 
a) 若 检 查 点 已 经 提交 ( 并且 一 个 新 的 检查 点 已 经 建立 )， b) 车 检测 到 陷阱 ， 存 储 组 冲 中 的 内 容 将 被 刷新 ， 
将 释放 存储 缓冲 ， 并 将 建立 新 的 检查 点 影子 复 本 将 被 写 回 寄存 器 文件 


7-14 ”检查 点 硬件 操作 


对 存储 器 实现 类 似 的 检查 点 就 要 困难 得 多 ， 因 为 保存 主 存 的 影子 复 本 不 管 在 时 间 上 还 是 空 
间 上 都 是 很 昂贵 的 。 因 此 ， 一 种 方法 是 在 处 理 器 中 缓冲 所 有 的 存储 器 store 操作 直到 执行 完 该 翻 
译 块 〈 其 状态 变化 可 以 被 提交 ) (Klaiber 2000) 。 参 见 图 7-14a， 当 一 个 检查 点 提交 时 ， 特 设置 另 
一 个 新 的 检查 点 ， 同 时 将 存储 缓冲 尾部 的 门 关 闭 ， 从 而 禁止 门 后 面 的 指令 提交 完成 。 同 时 ， 位 于 
存储 缓冲 头 部 的 门 〈 在 前 一 个 检查 点 时 建立 ) 被 打开 ，store 操作 可 以 提交 完成 并 将 数据 写 回 存 
储 器 。 这 些 写 操作 可 以 在 运算 的 同时 在 后 台 处 理 。 需 要 注意 的 是 ， 所 有 的 load 指令 必须 同时 检 
查 数据 cache 和 存储 缓冲 ， 因 为 其 所 取 数 据 有 可 能 在 存储 缓冲 中 ， 包 括 同一 块 中 前 面 未 提交 的 
store 以 及 前 一 块 中 任何 剩 下 的 已 经 提交 的 store。 
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如 果 一 个 翻译 块 执行 时 发 生 例外 〔〈 图 7-14b) ， 缓 冲 的 store 将 被 清除 ， 寄 存 器 将 使 用 隐藏 拷 
贝 来 重新 恢复 。 这 时 的 状态 与 刚刚 进入 该 块 时 的 状态 一 样 。 通 过 对 源 代码 的 解释 执行 就 可 以 实 
现 陷 入 指令 定位 并 提供 精确 状态 。 

硬件 支持 的 检查 点 方法 的 一 个 重要 优点 是 可 以 用 软件 对 翻译 块 中 的 代码 按 任 何方 式 重新 排 
序 〈 当然 要 保证 实际 的 数据 依赖 关系 ) ， 即 使 块 中 包含 store 指令 也 可 以 。 因 此 ，4.5.1 节 中 对 代 
码 移 动 的 约束 就 被 放松 了 。 这 里 唯一 的 约束 就 是 存储 缓冲 的 固定 大 小 ， 从 而 将 限制 翻译 块 的 大 
小 (因为 块 中 store 的 数量 不 能 超过 存储 缓冲 的 大 小 ) 。 

另 一 方面 ，load 和 store 的 软件 重 排序 可 能 导致 违反 存储 语义 顺序 性 的 约束 。 在 共享 存储 多 
处 理 器 中 ， 对 其 他 处 理 器 可 见 的 1oad 和 store 的 重 排序 有 相关 性 约束 (参见 附录 A.7.3)， 这 就 意 
味 着 共享 存储 多 处 理 器 的 实现 中 重 排序 将 受到 限制 。 原 因 是 在 指令 重 排序 后 ， 原 来 的 顺序 就 丢 
RT; 而 并 行程 序 的 正确 运行 可 能 要 依赖 原始 的 程序 。 对 于 多 处 理 器 存储 顺序 问题 ，IBM Daisy 
TÆ (Altman 等 ，2002) 的 一 项 专利 提出 了 一 个 解决 方案 。 该 方案 的 基本 思想 是 在 store 进入 到 
存储 缓冲 时 必须 获得 对 cache 行 的 唯一 访问 权限 ， 随 后 如 果 在 存储 缓冲 中 store 提交 前 有 别 的 处 理 
器 访问 该 cahce 行 ， 将 刷新 缓冲 并 且 重 启 。 


7.4.2 页 错误 兼容 性 


到 目前 为 止 ， 我 们 还 没有 考虑 出 现 页 错误 时 如 何 精确 恢复 客户 机 的 状态 。 在 大 部 分 的 进程 
虚拟 机 中 ， 页 错误 不 是 一 个 问题 ， 因 为 页 错误 对 OS 是 显 式 的 机 制 ， 主 要 由 OS 进行 处 理 ， 对 于 
一 般 进程 是 隐藏 的 。 由 于 协同 设计 虚拟 机 是 一 个 系统 虚拟 机 ， 而 不 是 进程 虚拟 机 ， 这 就 意味 着 客 B47 
P OS 必须 能 够 观察 到 相同 的 页 错误 ， 就 好 像 运行 在 实际 的 本 地 平台 上 一 样 。 如 果 客 户 OS 已 经 
将 逻辑 页 映射 到 常规 的 实 页 中 ， 这 时 就 不 能 触发 页 错误 ; 类 似 地 ， 若 客户 OS 尚未 映射 的 页 中 被 
访问 ， 那 么 此 时 就 必须 触发 页 错误 。 对 于 客户 存储 的 数据 域 来 说 ， 实 现 页 错误 的 兼容 性 是 相对 简 
单 的 。 如 果 主 机 实现 了 和 客户 相同 的 存储 器 映射 (图 7-6)， 并 且 让 客户 OS 管理 常规 存储 器 ， 那 
么 数据 域 的 页 错误 就 可 以 被 主机 很 自然 地 检测 到 。 发 生 这 些 错误 时 首先 将 控制 权 交 还 给 VMM, 
VMM 使 用 4. 5. 2 节 描 述 的 技术 来 判断 该 错误 是 否 是 真实 的 (由 于 优化 和 /或 代码 重 排 序 )， 并 在 
控制 权 转 交 给 客户 OS 之 前 产生 正确 且 精 确 的 状态 。 

类 似 地 ， 在 指令 解释 执行 时 ， 解 释 器 从 存储 器 常规 的 存储 区 域 加 载 指令 ， 因 此 取 指 时 出 现 页 
错误 也 能 正常 处 理 了 。 但 在 代码 cache 中 执行 翻译 过 的 指令 时 ， 问 题 就 相对 复杂 一 些 ， 因 为 客户 
指令 并 不 是 真正 从 常规 存储 器 中 取 到 的 ， 而 是 从 隐藏 存储 器 获得 的 翻译 后 指令 。 协 同 设计 虚拟 
机 在 从 代码 cache 中 取 翻 译 过 的 指令 时 必须 采用 一 些 触 发 页 错误 的 机 制 ， 以 保证 如 果 相 应 的 客户 
指令 从 实际 平台 中 取 指 将 导致 页 错误 。 有 很 多 种 方法 可 以 解决 这 个 问题 。 其 中 一 种 是 积极 的 ， 另 
一 种 是 懒惰 的 ， 这 两 种 方法 都 将 在 下 面 的 章节 中 进行 讨论 。 需 要 指出 的 是 ， 在 这 些 讨论 中 我 们 假 
设 使 用 结构 化 的 页 表 和 页 错误 。 对 结构 化 TLB 和 TLB 错误 的 讨论 将 在 其 他 的 章节 中 进行 。 

积极 页 错误 检测 

对 指令 页 的 积极 页 错误 检测 方法 监控 客户 OS 潜在 的 页 蔡 换 。 当 一 个 源 指 令 页 被 9S 替换 时 ， 
所 有 基于 该 替换 页 翻译 的 指令 块 都 将 从 代码 cache 中 清除 。 

为 了 确定 一 个 指令 页 何 时 可 能 被 客户 OS 替换 掉 ，VMM 监控 客户 OS 对 结构 化 页 表 的 修改 。 
这 可 以 通过 将 保存 页 表 的 存储 器 标记 为 “ 写 保 护 ” 来 实现 。 如 果 页 表 是 结构 化 的 ， 保 存 页 表 的 
存储 区 域 就 能 够 被 VMM 识别 。 如 果 VMM 软件 管理 TLB ， 那 么 对 页 面 的 写 保护 将 会 相当 简单 。 
写 保护 信息 将 被 添加 到 TLB 中 ， 对 主 存 中 结构 化 的 页 表 不 需 任 何 修改 。VMM 同时 还 需要 监视 其 
他 可 能 修改 虚实 页 上 映 射 的 操作 ， 如 修改 页 表 指 针 。 
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此 外 ， VMM 将 每 个 包含 源 指令 的 页 的 虚 页 号 保存 到 一 个 表 中 。 当 源 指令 块 被 翻译 时 ， 在 该 
表 中 将 增加 一 个 表 项 (车 表 中 还 没有 该 页 号 的 话 )。 随后 ， 任何 对 页 表 映 射 的 改变 都 将 产生 一 个 
陷阱 (或 跳 转 ) 到 VMM ， VMM 判断 是 否 有 源 指令 页 的 页 表 项 被 修改 。 WEG, VMM 将 清除 代 
码 cache 中 该 页 对 应 的 所 有 翻译 代码 块 。 这 需要 两 个 辅助 表 ， 个 表 为 每 页 记录 该 页 所 有 的 翻译 
块 ， 也 就 是 那些 需要 被 清除 的 翻译 块 ; 另 一 个 表 (或 第 一 个 的 扩展 ) 记录 任何 向 后 连接 指针 
(参见 3.8.2)。 该 连接 指针 被 修改 为 指向 VMM 仿真 管理 器 。 这 些 完成 后 ， 将 控制 转移 到 被 移出 
页 的 尝试 被 向 仿真 管理 器 的 跳 转 所 代替 。 紧 接着 ， 仿真 进程 将 在 其 仿真 代码 页 指令 时 检测 到 指 
今 页 错误 并 发 生 页 表 失 效 。 最 后 ， 如 果 硬 件 结构 包括 SPC 到 TPC 的 地 址 转换 ， 如 ITLB 和 DRAS 
(7.3 节 ) ， 这 些 结构 所 有 相应 的 表 项 都 要 被 清除 。 

懒惰 页 错误 检测 

在 懒惰 页 错误 检测 方法 中 ， 当 源 代码 页 被 客户 OS 替换 时 ， 代 码 cache 并 不 立即 清除 所 有 相 
应 的 翻译 ， 而 是 等 到 实际 的 对 该 翻译 代码 访问 时 才 刷 新 。 为 实现 这 种 方法 ， 每 次 翻译 代码 跨越 源 
页 边界 时 都 将 对 页 表 进 行 探 测 ， 看 看 映射 是 否 与 初始 翻译 时 相同 (Ebcioglu 等 ，2001) 。 

图 7-15 说 明了 这 种 方法 。 首 先 ， 必须 能 够 确定 何 时 翻译 代码 将 越过 源 页 边界 。 如 果 一 个 翻 
译 块 中 的 所 有 代码 都 来 自 于 同一 源 页 ， 那么 就 很 简单 ， 源 页 的 边界 只 有 在 链接 跳 转 时 才 会 越过 。 
例如 ， 图 7-15 Hik HJJ 跳 转 至 块 KL 时 。 和 否则 ， 如 果 翻译 代 码 可 来 自 于 不 同 的 源 页 ， 这 时 翻译 代 
码 中 的 穿越 点 就 必须 被 指明 ， 至 少 要 考虑 到 精确 的 状态 修改 〈 图 7-15 中 的 EE 到 F 的 转换 )。 在 任 
一 种 情况 下 ， 当 源 页 边界 被 穿越 时 ， 第 一 条 指令 将 是 翻译 器 插入 的 Verify_Translation。 该 指令 将 
探测 页 表 确 定 页 映射 是 否 已 经 改变 。 Verify_Translation 指令 提供 了 新 进入 的 源 页 的 虚 地 址 和 此 块 
被 翻译 时 的 实地 址 。 该 指令 尝试 将 虚 页 号 转换 为 实 页 号 ， 若 成 功 的 话 ， 再 将 该 页 号 与 指令 提供 的 
实际 地 址 比较 。 如 果 虑 页 映射 到 实 页 并 且 两 个 地 址 比较 相等 则 翻译 代码 继续 执行 。 否则 ，VMM 
将 接管 控制 ， 生 成 页 错误 并 / 或 翻译 刚刚 进入 的 源 代码 页 。 
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图 7-15 通过 指令 探测 页 表 检测 指令 页 错误 
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结构 化 的 TLB 

使 用 结构 化 的 TLB 时 ,积极 的 和 懒惰 的 方法 都 可 以 直接 采用 。 但 是 由 于 性 能 因素 ,积极 的 
方法 似乎 问题 更 多 。 若 使 用 积极 的 方法 ， 每 次 源 代 码 页 的 TLB 表 项 被 修改 时 翻译 都 将 刷新 。 随 
后 如 果 该 TLB 表 项 被 重新 恢复 时 ， 代 码 又 必须 重新 翻译 。 如 果 有 相当 多 的 源 代 码 页 并 且 有 很 多 
对 代码 页 的 TLB 动作 ， p e Ni te 使 用 懒惰 的 方法 时 ， 跟 前 面 一 样 可 以 使 用 
Verify_Translation 指令 。 唯 一 不 同 的 是 ， 当 翻译 代码 不 在 实 页 中 时 将 产生 TLB 错误 而 不 是 页 
错误 。 


7.5 输入 /输出 


对 于 大 部 分 情况 而 言 ， 在 协同 设计 虚拟 机 上 实现 VO 是 很 直接 的 。 如 果 VMM 本 身 不 使 用 任 
何 1/O 设备 ,那么 任何 客户 设备 驱动 程序 都 可 以 运行 (尽管 驱动 程序 代码 的 指令 就 像 其 他 客户 
指令 那样 仿真 )。 任 何 1/O 指令 或 者 存储 器 映射 /O 都 只 是 简单 地 越过 VMM，LO 系统 就 好 像 运 
行 在 实际 平台 上 一 样 能 看 到 同样 的 信号 。 

如 4.5.1 节 所 提 到 的 ， 存 储 器 映射 的 VO 将 导致 易 失 性 存储 器 位 置 ， 而 易 失 性 存储 器 位 置 的 
出 现 将 限制 对 这 些 位 置 的 优化 ， 包 括 移 除 和 /或 重 排序 对 这 些 存储 器 位 置 的 10ad 和 store 操作 。 为 
了 识别 对 易 失 性 存储 器 访问 的 代码 区 域 ， 需 要 在 TLB 中 设置 的 一 个 访问 保护 位 ， 类 似 于 7.2 节 
所 述 的 写 保护 位 。 这 时 如 果 有 存储 器 映射 的 LO 函数 对 访问 保护 的 存储 器 进行 load 或 store 操作 ， 
将 会 导致 一 个 VMM 的 陷阱 ，VMM 将 去 除 包含 对 易 失 性 存储 器 进行 访问 的 优化 翻译 ， 以 保证 正 
确 的 执行 序列 (Kelly, ，Cmelik 和 Wing 1998 ) 。 另 一 种 增强 方法 是 扩展 ISA 的 实现 ， 使 其 包含 特 
殊 的 易 失 性 load 和 store 指令 ， 在 访问 位 被 设置 时 这 些 指令 将 不 发 生 陷阱 如 果 在 去 除 VO 优化 
的 代码 中 使 用 ， 将 不 会 导致 陷入 。 

如 果 VMM 不 使 用 VO 设备 ， 那 么 其 将 被 限制 完全 驻 留 在 隐藏 存储 器 中 。 这 意味 着 翻译 代码 
不 能 像 3. 10 节 中 描述 的 PX! 32 系统 中 那样 被 缓存 到 磁盘 并 被 重用 。 每 次 程序 执行 时 都 必须 全 部 
ee ee 

如 果 完 全 透明 的 要 求 可 以 被 稍 许 放松 的 话 ， 那 么 隐藏 存储 句 可 以 扩展 到 二 级 存储 (磁盘 )。 
BAINERA GENEA IDE VMM START IR 
是 使 用 专门 的 VMM 感知 的 (VMM-aware) 磁盘 驱动 
器 (图 7-16)。 正 是 这 个 特殊 的 磁盘 驱动 器 的 加 入 打 | 
BET VMM 的 完全 透明 性 ， 还 将 限制 协同 设计 的 处 | iis 
理 器 只 能 用 在 那些 开发 并 使 用 了 特殊 的 磁盘 驱动 器 | | | 
的 操作 系统 上 。 磁 盘 驱 动 器 可 以 限制 OS 只 使 用 它 可 [acd babe te 
见 的 那 一 部 分 (实际 上 ， 客户 OS 只 看 到 非 隐藏 区 be boot dM ata ipd 
域 ) 。 同 时 ，VMM 通过 磁盘 驱动 器 访问 其 隐藏 的 磁盘 + 
为 了 避免 过 度 放 松 透明 性 ，VMM 完全 负责 管理 bw 
隐藏 二 级 存储 。 这 意味 着 隐藏 二 级 存储 不 能 作为 普通 一 
的 备份 或 存档 空间 ， 其 仅仅 能 作为 保存 翻译 代码 (或 图 7-16 隐藏 二 级 存储 。 通 过 增加 专门 的 磁 





客户 0S ] 





VMM 软件 的 分 页 )。 这 个 容量 巨大 、 持 久 的 代码 盘 驱 动 器 可 以 实现 隐藏 的 二 级 存 
cache 对 于 减少 大 程序 的 初始 启动 时 间 是 很 有 效 的 储 。 客 户 OS 和 VMM 软件 都 可 以 
(包括 OS 启动 ) 。 但 是 ， 必 须 不 断 检 查 以 保证 任何 源 访问 该 驱动 器 ,但 是 只 有 VMM 可 


代码 和 相应 缓存 的 翻译 代码 之 间 的 匹配 一 致 性 ， 甚 至 以 访问 隐藏 区 域 
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可 能 需要 保存 源 代码 的 复 本 并 执行 逐条 指令 的 检查 (Conte, Sathaye 和 Banerjia 1996). i H ia 
藏 二 级 存储 器 可 能 只 对 大 块 的 翻译 代码 有 效 ， 对 于 小 块 翻译 代码 而 言 ， 重 新 翻译 可 能 比 访 问 磁 
盘 还 要 快 。 一 种 有 趣 的 (但 更 不 透明 的 ) 基于 磁盘 的 代码 cache 方法 是 基于 页 面 大 小 的 代码 块 对 
VLIW 二 进 制 代码 的 动态 重新 调度 (Conte 和 Sathaye 1995 ) 。 


7.6 协同 设计 虚拟 机 的 应 用 


到 目前 为 止 ， 我 们 已 经 描述 了 协同 设计 虚拟 机 的 一 系列 机 制 来 仿真 完整 的 ISA 和 支持 代码 
cache 指令 的 有 效 执行 。 这 些 机 制 都 只 是 有 可 能 实现 的 ， 要 想 真 正 有 用 还 必须 在 有 实际 优点 的 协 
同 设计 虚拟 机 中 使 用 ， 诸 如 提高 性 能 ， 降 低 功 耗 ， 软 件 灵 活性 等 。 优 点 可 以 在 宏观 和 微观 两 个 层 
面 上 来 获得 。 

在 宏观 层面 上 ， 可 以 实现 完全 新 的 I 8A。 一 些 在 协同 设计 虚拟 机 中 提出 或 实现 的 目标 ISA 试 
图 以 比 常规 指令 集 更 加 有 效 的 方式 将 指令 级 并 行 性 暴露 给 硬件 。 大 部 分 常规 指令 集 反 映 的 仍然 
是 几 十 年 前 的 顺序 执行 模式 ， 从 而 硬件 必须 担负 起 在 运行 时 挖掘 指令 并 行 性 的 重担 ， 实 质 上 现 
代 超 标量 处 理 器 都 是 如 此 。 

两 个 比较 有 名 的 协同 设计 处 理 器 ，Transmeta Crusoe ( Klaiber 2000; Halfhill 2000) 和 IBM 
Daisy/BOA (Ebcioglu 等 ，2001; Sathaye 等 ，1999 ) ， 都 使 用 了 VLIW 指令 集 作为 其 目标 ISA, 
协同 设计 的 软件 从 源 二 进 制 代码 中 寻找 不 相关 的 指令 并 把 它们 组 合成 VLIW 指令 。VLIW 实现 的 
主要 优点 是 不 需要 像 大 多 数 超标 量 处 理 器 那样 使 用 复杂 (并 且 功 耗 大 ) 的 乱 序 发 射 单元 。 

另 一 种 风格 的 协同 设计 虚拟 机 方案 也 有 相似 的 目标 简化 指令 发 射 逻辑 ,但 是 它 是 通过 
将 依赖 指令 链 暴露 给 硬件 来 实现 的 《而 不 是 像 VLIW 那样 寻找 不 相关 指令 ) (Kim 和 Smith 
2003) 。 随 后 多 个 顺序 发 射 单元 将 被 分 配给 各 个 依赖 指令 链 ， 每 个 发 射 单元 都 按照 顺序 发 射 指 
令 ， 多 个 功能 单元 之 间 可 以 相对 独立 的 乱 序 发 射 ， 从 而 降低 了 硬件 复杂 度 。 伊 利 诺 斯 大 学 的 另 一 
个 研究 项 目 (Merten 等 ，2001) 提供 了 一 系列 有 趣 的 协同 设计 硬件 单元 来 进行 剖析 和 优化 ， 而 
不 是 实现 ISA 革新 。 

IBM AS/400 I (Soltis 1996) 的 目标 是 提供 一 种 高 级 的 面向 对 象 的 源 ISA。 除 了 能 很 好 地 
高 效 支持 面向 对 象 系统 和 应 用 软件 ， 该 方法 还 允许 很 多 硬件 资源 管理 机 制 ， 如 页 管理 ， 被 放 人 实 
现 相关 的 VMM 中 。AS/400 所 表明 协同 设计 的 另 一 个 优点 是 可 以 用 扩展 的 Power PC ISA 来 代替 
原来 的 主机 ISA (一 种 专用 的 CISC) ， 并 以 用 户 完 全 透明 的 方式 实现 用 户 迁 移 。 

在 微观 层面 上 ， 协 同 设计 虚拟 机 人 允许 实现 专门 的 性 能 增强 机 制 (可 能 与 所 选择 的 主机 ISA 
相关 )。 例 如 ， 在 VLIW 平台 上 ， 所 有 的 代码 调度 都 由 软件 翻译 系统 完成 ， 所 以 指令 重 排序 对 于 
VLIW 计算 机 是 至 关 重 要 的 。 从 而 ， 使 用 VLIW 指令 作为 目标 ISA 的 协同 设计 虚拟 机 专门 对 指令 
重 排序 进行 支持 ， 尤 其 是 load 和 store 指令 ， 因 为 load 和 store 指令 依赖 是 很 难 静态 确定 的 〈 即 
消除 它们 的 歧义 )。 

最 后 ， 协 同 设计 虚拟 机 一 个 重要 的 特性 是 可 以 在 虚拟 机 中 实现 相关 的 剖析 硬件 ， 以 供 动态 
翻译 /优化 软件 使 用 (Conte，Menezes 和 Hirsch 1996; Heil 和 Smith 2000; Merten 等 ，2000)。 这 
种 剖析 硬件 可 以 满足 协同 设计 软件 熏 译 代码 的 优化 以 及 微 体 系 结构 特性 的 需求 。 

为 了 更 具体 的 说 明 前 面 提 到 的 优点 ， 下 面 两 节 将 给 出 两 个 重要 的 协同 设计 虚拟 机 例子 ， 
Transmeta Crusoe 和 IBM AS/400。 





7.7 案例 研究 : Transmeta Crusoe 
尽管 协同 设计 虚拟 机 模式 的 一 些 特性 已 经 被 采用 过 ， 如 提供 代码 可 移植 性 ，Transmeta Cru- 
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soe 却 在 功 耗 高 效 性 和 设计 简单 性 方面 开辟 了 使 用 协同 设计 虚拟 机 的 新 天 地 。TM5000 系列 是 在 
2000 年 早期 发 布 的 ， 本 节 将 主要 介绍 该 处 理 器 。 接 下 来 的 Efficeon (TM8000) 系列 在 2003 年 发 
布 ， 相 对 于 TM5000， 它 集成 了 更 大 的 缓存 ， 并 且 使 用 了 加 倍 的 VLIW 指令 宽度 。 

Crusoe 使 用 其 所 特有 的 底层 VLIW 指令 集 实现 了 IA-32 ISA, HH VLIW 指令 集 通过 在 代码 
cache 中 动态 的 代码 翻译 和 优化 生成 。TM5800 处 理 器 的 微 结构 如 图 7-17 所 示 。VLIW (Transmeta 
称 之 为 分 子 ) 包括 四 条 指令 (原子)。 直 觉 上 ， 它 就 是 常规 的 VLIW 指令 ,包括 4 个 特殊 功能 的 
独立 指令 域 。 这 些 指令 域 对 应 于 分 支 单 元 、 浮 点 单元 、 整 型 单元 和 load/store 单元 。 为 实现 精确 
RABE, Crusoe 使 用 7. 4 节 描 述 的 基于 隐藏 寄存 器 和 门 存储 缓冲 的 方法 。 





L1 D-Cache 
32B Lines 
16-way 
64 KB 





L2 Cache 
512 KB 
4-way 






局 部 程序 存储 
8KB 





门 存储 缓冲 
二 nn | 


7-17 ”Transmeta Crusoe TM5800 微 结构 


存储 层次 如 图 7-18 所 示 。VMM 软件 以 压缩 形式 保存 在 一 个 512KB 的 引导 ROM 中 。 在 引导 
进程 开始 时 ， 该 软件 被 解压 缩 到 OMB 的 隐藏 存储 器 区 域 。 在 该 实现 中 ， 代 码 cache 和 各 种 side 
表 共 占用 14MB， 常 规 的 Ll 指令 和 数据 缓存 大 小 为 64KB。 另 外 还 有 两 个 较 小 的 存储 器 被 分 配给 
VMM 专用 ， 它 们 提供 了 对 设计 者 所 依赖 的 VMM 关键 代码 和 数据 的 低 延 迟 访问 。 

Crusoe 中 很 大 的 优化 挑战 是 将 复杂 的 IA-32 指令 分 解 为 类 RISC 微 操 作 ， 然 后 再 寻找 并 行 性 
并 调度 到 VLIW 中 。 因 为 使 用 的 是 按 序 VLIW 微 结 构 ， 所 以 代码 重 排序 是 优化 过 程 的 一 个 关键 部 
分 。 为 了 对 重 排序 进行 支持 ，Crusoe 设计 者 在 实现 的 ISA 中 加 入 了 很 多 的 专门 特性 。 

Load 指令 的 移动 可 能 是 最 重要 的 一 种 重 排序 ， 因 为 load 指令 比 其 他 大 多 数 指令 需要 更 多 的 
执行 时 间 ， 特 别 是 缓存 不 命中 时 。 也 就 是 对 load 指令 进行 重 排 序 使 之 在 指令 流 中 位 置 上 升 ， 从 
而 可 以 尽 可 能 早 的 执行 ， 这 样 可 以 消除 或 减少 后 面相 关 指 令 的 等 待 时 间 。 例 如 ， 考 虑 图 7-19a 中 
的 代码 段 ， 其 中 包括 两 个 load 和 两 个 store 指令 ,另外 还 有 一 个 对 两 个 load 值 运算 的 加 法 指令 。 


a - 
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这 里 就 需要 将 load 指令 移 到 较 高 的 位 置 ， 如 图 7-19b 所 示 。 从 而 就 有 其 他 的 中 间 指 令 与 load 执行 
时 间 重 个， 结果 本 来 加 法 指令 等 待 其 输入 准备 的 时 间 就 被 消除 了 ， 尤 其 是 在 一 个 或 两 个 load 值 
都 缓存 不 命中 时 。 但 是 , 将 load 指令 上 移 可 能 是 不 安全 的 ， 因 为 store 指令 可 能 访问 同一 地 址 。 
例如 ， 如 果 向 0 Cri) 的 store 操作 地 址 正好 和 从 0 (m4) Kj load 操作 地 址 一 样 ， 这 样 在 重 排序 代 
码 中 load 将 返回 错误 的 数据 。 因 为 寄存 器 值 通常 在 运行 时 才能 获知 ， 而 且 在 程序 执行 过 程 中 是 
可 变 的 ， 这 样 二 进 制 转换 器 就 不 能 保证 load 和 store 操作 不 是 对 同一 地 址 的 ， 所 以 考虑 安全 因素 ， 
这 种 代码 重 排 是 被 禁止 的 。 









14MB Crusoe 
数据 及 翻译 






64KB 
I-Cache 










64KB 
D-—Cache 





fe] 7-18 Transmeta Crusoe 存储 层次 


源 代码 重新 调度 后 ( 不 安全 ) 重新 调度 ( 受 保护 ) 


st OCri),r2 ld r3,0Cr4) 1dp r3,0(r4) x 
wae ld r7,0Cr8) Tdp r7,0(r8) x x 
ld 13,0(r4) st O(r1),r2 stam O(r1) ,r2—4 


st OCr5),r6 wae wae 
tee st OCr5),r6 stam 0(r5),r6 
Ild r7,0Cr8) aes wee 

add r9,r3,r7 add r9,r3,r7 add r9,r3,r7 


a) 源 代码 b) 不 安全 的 重 排序 (由 于 c) 使 用 ldp 和 stam 指令 
不 确定 地 址 ) 进行 保护 重 排序 


图 7-19 使 用 load-and-protect 和 store-under-alias-mask 指令 安全 重 排序 存储 操作 


一 种 检测 这 种 存储 冲突 的 协同 设计 方法 很 适合 解决 这 个 问题 (Gallagher 等 ，1994 ) Trans- 
meta 设计 者 通过 增加 一 对 特殊 的 指令 实现 了 该 方法 。load-and-protect #4 (Idp) 执行 load 操作 
并 在 结构 化 的 表 中 记录 load 地 址 和 相应 数据 的 大 小 。Store-under-alias-mask (stam) 指令 执行 
store 操作 并 包含 用 来 标识 前 面 ldp 指令 设置 的 表 项 的 标记 (mask)。 对 于 每 个 stam 指令 ,图 7- 
19c 中 每 个 从 stam 到 ldp 的 箭头 标记 出 了 ldp 指令 。 该 例 中 第 二 个 stam 只 标识 了 第 二 个 load, 
为 第 一 个 load 之 前 本 来 就 在 它 前 面 。 如 果 检 测 到 stam 指令 标记 所 对 应 表 项 的 ldp 地 址 和 stam 地 
址 重 释 ， 那 么 一 个 陷阱 将 报告 给 VMM。 这 时 ，VMM 将 像 处 理 其 他 蜡 常 一 样 解决 该 问题 它 将 
返回 前 一 个 检查 点 并 开始 解释 原始 的 代码 以 保证 正确 的 结果 。 如 果 一 个 特殊 的 翻译 块 不 断 地 报 
告 陷阱 ，VMM 可 以 更 保守 地 重 排 这 些 代码 ， 注 意 保持 load 和 store 原始 的 重合 顺序 。 

作为 一 个 示例 ，ldp/stam 指令 对 极 好 地 展示 了 协同 设计 虚拟 机 中 协同 设计 的 硬件 和 软件 之 间 
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的 相互 作用 。 在 该 例 中 ， 由 于 采用 了 VLIW 指令 ， 对 指令 的 重 排 序 显 得 非常 重要 ， 而 ldp/stam 
指令 与 动态 优化 代码 一 起 协同 很 容易 地 实现 了 代码 的 重 排序 。 


7.8 案例 研究 : IBM AS/400 


IBM AS/400 ( 源 自 于 早期 的 System/38) 体系 结构 可 能 并 不 像 其 他 教科 书 式 的 体系 结构 那 
样 为 人 熟知 ， 但 是 它 是 高 度 创新 的 结构 并 且 取 得 了 巨大 的 商业 成 功 (Soltis 1996), AS/400 包含 
一 个 协同 设计 虚拟 机 ， 实 际 上 整个 系统 ， 包 括 系统 软件 ， 都 是 从 头 使 用 完全 集成 的 方法 设计 的 ， 
所 以 可 以 说 整个 系统 从 上 到 下 都 是 协同 设计 的 。 不 像 本 章 介 绍 的 其 他 协同 设计 虚拟 机 ，System/ 
38 的 设计 目的 并 不 是 为 了 支持 现 有 的 常规 ISA。System/38 设计 者 提出 了 一 种 新 的 高 级 ISA， 和 希 
望 达到 软件 简单 性 和 机 器 (硬件 ) 独立 性 。 

该 高 级 指令 集 被 称 作 技 术 独 立 的 机 器 接口 (technology-independent machine interface ) ， 或 者 
简 记 为 MI。 内 部 许可 代码 (Licensed Internal Code, LIC) 是 对 MI 的 补充 ， 它 是 一 组 标准 库 ， 用 
来 处 理 与 实现 相关 的 资源 管理 工作 。MI 和 LIC 一 起 构成 了 ABI 层 ， 所 有 实现 无 关 软件 都 运行 在 
该 层 之 上 。 

在 最 初 的 设计 中 ， 底 层 实现 结构 是 基于 一 种 私有 的 CISC ISA (图 7-20a) ， 称 之 为 内 部 微 程 
序 接口 〈internal microprogrammed interface，IMPI)S。 开 发 与 实现 无 关 的 高 级 ISA 的 目的 是 支持 
将 来 底层 实现 的 改变 ， 包括 底层 ISA 的 改变 。 在 AS/400 的 发 展 中 已 经 使 用 了 这 个 特性 ， 首 先是 
以 透明 的 方式 扩展 IMPI， 然 后 是 完全 改变 到 一 个 扩展 的 Power PC ISA (图 7-20b)。 


用 户 应 用 程序 ，0S 





用 户 应 用 程序 ;0S 
MI & LIC MI & LIC 
翻译 器 ; 实现 相关 的 OS 翻译 器 ， 实 现 相 关 的 OS 
IMP! PowerPC 
PowerPC 平台 
a) 原始 的 System/38 和 早期 的 AS/400 系统 都 是 b) 最 近 的 AS/400 系统 基于 扩展 的 
基于 私有 ISA (IMPI) 和 硬件 平台 的 PowerPC ISA 和 硬件 平台 


图 7-20 AS/400 结构 


相对 于 常规 ISA，MI 是 在 更 高 级 的 层次 上 并 且 主 要 是 为 了 硬件 无 关 性 而 开发 的 ， 因 此 AS/ 
400 的 体系 结构 与 第 5 章 介绍 的 HLL 虚拟 机 在 思想 上 是 相似 的 ， 同 样 遵 循 图 5-1 所 示 的 模型 。 也 
就 是 说 ，MI 编译 器 类 似 于 常规 编译 器 前 端 ， 而 MI 翻译 器 类 似 于 常规 编译 器 后 端 。 但 是 与 其 他 
协同 设计 虚拟 机 一 样 ，AS/400 是 一 个 系统 虚拟 机 ， 它 支持 的 不 仅 是 程序 执行 的 语言 方面 ， 同 时 
也 是 一 个 完整 的 系统 环境 。 这 种 将 软件 中 与 实现 相关 和 实现 无 关 部 分 划分 的 思想 进一步 扩展 到 
OS 功能 中 。 例 如 ， 设 备 驱 动 和 存储 管理 算法 都 在 OS 中 与 实现 相关 的 部 分 ， 这 些 功能 都 实现 在 
LIC 中 ， 并 使 用 了 主机 ISA (IMPI 或 Power PC) 。 

AS/400 使 用 基于 对 象 的 NA (MI), ， 所 以 也 就 使 用 了 和 Java 虚拟 机 和 CLI (第 5 章 ) 相似 





© 调用 协同 设计 软件 微 码 意味 着 微 码 被 视 为 硬件 设计 的 一 部 分 ， 而 不 是 将 其 看 作为 常规 软件 。 
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的 思想 。 但 是 在 AS/400 中 ，MI 本 身 是 基于 对 象 的 ， 也 就 是 说 ，MI 中 包含 结构 化 的 对 象 类 型 和 
专门 的 类 型 指令 。 但 是 MI 上 运行 的 程序 没有 必要 也 是 基于 对 象 的 。 相 比 之 下 , 在 Java Al CLI AR 
统 中 ，V-ISA 包括 结构 化 原 语 来 负责 支持 在 其 上 运行 的 面向 对 象 程序 ，V-ISA 指令 中 仅 有 的 结构 
化 对 象 就 是 数组 。 


7.8.1 存储 结构 


MI 有 一 个 由 对 象 组 成 的 存储 结构 。 如 图 7-21 所 示 ， 对 象 之 间 是 完全 隔离 的 ， 并 且 只 能 用 指 
针 来 访问 。MI 指令 支持 并 使 用 很 多 的 对 象 类 型 ; 其 中 最 简单 的 一 种 称 作 空 间 ， 就 像 名 字 所 显示 
的 ， 其 包括 一 个 数据 空间 。 其 他 对 象 包括 专门 的 对 象 信息 ， 即 功能 部 分 和 保存 常数 及 其 他 对 象 相 
关 数 据 的 空间 。 一 个 对 象 只 能 通过 为 该 对 象 创建 的 指针 进行 访问 。 为 了 访问 空间 的 一 个 位 置 ， 必 
须 使 用 空间 指针 或 数据 指针 〈 类 型 化 数据 ) 。 对 象 的 功能 部 分 是 与 实现 相关 的 而 且 只 能 由 该 对 象 
的 专门 MI 指令 操作 ; 功能 部 分 的 内 容 对 于 MI 层 以 上 是 不 再 可 见 的 。MI 支持 的 对 象 可 以 由 程序 
创建 、 销 毁 和 修改 。 


上 下 文 ( 库 ) 





图 7-21 MI 存储 结构 。 存 储 包 括 临 时 的 或 者 永久 的 对 象 。 典 型 的 对 象 包括 只 能 通过 该 对 象 特定 的 指令 
访问 的 功能 部 分 ， 以 及 可 以 使 用 常规 指令 修改 的 空间 部 分 。 简 单 的 对 象 仅仅 包含 空间 部 分 


指针 中 包含 的 实际 地 址 值 对 于 MI 层 以 上 的 软件 是 不 可 见 的 。 指 针 只 能 用 于 存 取 数 据 ， 而 且 
指针 不 能 用 普通 的 指令 来 修改 。 如 果 尝 试 对 包含 指针 的 存储 位 置 进行 写 人 操作 ， 那 么 其 作为 指 
针 的 能 力 将 立即 被 销毁 。 这 个 特性 的 实现 将 在 下 面 描述 。 

保护 指针 的 完整 性 是 任何 基于 对 象 的 系统 中 最 基本 的 部 分 。 比 较 这 里 使 用 的 指针 保护 方法 
和 Java 中 使 用 的 方法 是 很 有 趣 的 ， 在 后 者 中 为 实现 对 引用 的 保护 ， 通 过 仔细 地 跟踪 引用 类 型 保 
证 正确 验证 过 的 程序 中 不 会 出 现 对 引用 的 非法 操作 。 

虽然 MI 中 使 用 的 基于 对 象 的 存储 结构 很 容易 让 我 们 想起 Java 和 MSIL 中 使 用 的 堆 ， 但 是 最 
根本 的 差别 在 于 AS/400 是 系统 虚拟 机 ， 从 而 对 象 必须 在 整个 系统 的 生命 期 中 存在 ， 而 不 是 仅仅 
在 一 个 进程 的 生命 期 中 存在 。 从 OS 和 应 用 的 角度 来 说 ， 系 统 中 没有 常规 的 文件 。 所 有 的 存储 ， 
包括 DRAM 和 磁盘 ， 只 是 在 MI 层 以 下 管理 的 一 个 巨大 的 基于 对 象 的 存储 器 。 所 有 的 长 期 存储 都 
通过 永久 对 象 来 完成 。 每 个 永久 对 象 都 有 一 个 名 字 保 存在 称 为 上 下 文 的 MI 对 和 象 中 (或 操作 系统 
的 一 个 库 ，OS/400)。 为 了 获得 对 象 的 指针 ， 程 序 可 以 指定 一 个 上 下 文 和 对 象 的 名 字 ; 如 果 程 序 
有 权 访 问 该 对 象 ， 那 么 将 会 获得 一 个 正确 的 指针 。 这 与 常规 系统 中 打开 一 个 文件 是 类 似 的 。 永 久 
对 象 将 一 直 保 持 在 系统 中 直到 它们 被 显 式 的 销 筑 。 

除了 永久 对 象 ， 每 个 进程 在 运行 的 时 候 可 以 创建 临时 对 象 。 这 些 临时 对 象 不 需要 在 上 下 文 
中 保存 指针 ， 它 们 将 在 系统 中 保存 直至 系统 重启 。 这 样 就 可 以 保证 活动 的 程序 不 会 有 指针 指向 
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已 被 移出 的 临时 变量 。AS/400 中 没有 垃圾 收集 功能 ， 这 就 是 将 临时 空间 归还 给 系统 的 机 制 。 

基于 对 象 的 存储 实现 ， 包 括 存储 管理 ， 都 是 在 MI 层 以 下 完成 的 。 主 存 是 基于 常规 的 Power 
PC 段 或 页 映射 结构 ， 如 附录 A. 8. 1 所 述 。 对 象 指针 采用 128 位 编码 ， 但 是 高 64 位 包含 类 型 信息 
和 授权 信息 ， 低 64 位 才 是 Power PC 的 虚 地址 。 

对 Power PC 存储 结构 唯一 的 重要 扩 假 是 增加 了 对 象 指 针 保 护 机 制 ， 即 防止 程序 用 任意 值 来 
覆盖 指针 的 值 并 随后 使 用 它 来 进行 未 授权 的 存储 访问 。 通 过 增加 对 指针 load 和 store 操作 的 特殊 
指令 ， 并 且 为 每 个 存储 双 字 增加 第 65 位 实现 了 对 指针 的 保护 。 第 65 位 指示 此 位 置 是 否 包含 一 个 
指针 (实际 上 是 128 位 指针 的 一 半 ) 。Load 指针 指令 检查 该 位 ; 如 果 该 位 被 设置 ， 那 么 它 将 设置 
一 个 条 件 码 以 备 检查 是 否 load 了 一 个 有 效 的 指针 。Store 指针 指令 存储 指针 并 设置 该 指针 位 。 每 
个 常规 的 store (SEGRE) 都 对 该 位 清空 。 因 此 ， 任 何 采用 常规 store 覆盖 指针 的 尝试 都 将 导致 以 
后 用 load 指针 指令 访问 时 它 将 被 认为 是 一 个 非 指针 。 


7.8.2 指令 集 


MI 指令 并 不 是 为 了 被 直接 执行 的 ， 也 不 是 为 了 被 解释 的 (尽管 理论 上 可 以 )。 它 们 只 能 通 
过 进一步 的 编译 (翻译 ) 成 主机 平台 上 的 ISA 才能 直接 执行 ， 在 最 初 的 System/38 中 是 IMPI, 
在 最 近 的 系统 中 则 是 扩展 的 Power PC ISA。MI ISA 执行 相当 常规 的 操作 ， 这 些 操作 执行 在 空间 
内 保存 的 正常 数据 类 型 上 。 还 包括 对 MI 定义 对 象 的 操作 指令 。 

MI 指令 格式 如 图 7-22a 所 示 ， 其 包括 一 个 操作 码 域 和 数 个 操作 数 域 。 操 作 码 包含 两 个 字 节 ; 
操作 码 扩展 (MATA) 也 包括 两 个 字 节 。 另 外 有 到 n 个 操作 数 域 ， 每 个 域 三 字 节 长 (Æ 
System/38 中 是 两 个 字 节 ) 。 基 本 的 算术 逻辑 运算 指令 有 长 格式 和 短 格式 两 种 。 其 中 长 格式 是 操 
作 数 1 一 操作 数 2 op 操作 数 3， 其 中 的 op 是 被 执行 的 操作 。 短 格式 是 操作 数 1 操作 数 op 操作 
数 2 ， 其 中 第 一 个 操作 数 既 是 源 操 作 数 也 是 目的 操作 数 。 


2 bytes 2 bytes 3 bytes 3 bytes 3 bytes 3 bytes 
[ents [Rt T operara 1 Er ssn 
(可 选 ) (可 选 ) (可 选 ) (可 选 ) (可 选 》 
a ) 通用 指令 格式 


aaan & branchlea of at of of ol sum | adderar | adsena2 aestinarionil eneiration] 


b) 实现 加 法 和 多 路 条 件 分 支 的 指令 例子 
图 7-22 AS/400 指令 


MI 中 一 个 有 趣 的 性 质 是 每 条 指令 都 能 包含 一 个 四 路 的 条 件 分 支 或 者 可 以 评估 四 个 预测 值 
(AS/400 中 称 为 指示 器 ) 。 它 们 是 通过 扩展 操作 码 实现 的 。 如 果 指 令 包含 扩展 操作 码 ， 那 么 该 指 
令 也 可 以 有 多 达 四 个 分 支 目 标 (或 保存 指示 器 值 的 地 址 ) 。16 位 的 扩展 操作 码 被 分 为 4 个 4 位 
域 ， 每 个 4 位 域 包括 一 个 条 件 ， 如 大 于 0， 等 于 0, 或 者 小 于 等 于 0 之 类 。 如 果 操 作 码 扩展 是 为 
了 分 支 并 且 匹 配 第 一 个 分 支 条 件 ， 那 么 将 导致 向 第 一 个 分 支 目 标的 跳 转 ; 若 匹 配 第 二 个 ， 则 向 第 
二 个 分 支 目 标 跳 转 ; 依 此 类 推 。 条 件 域 为 0 意味 着 不 需要 测试 (同时 也 没有 给 出 目标 )。 类 似 
地 ， 对 于 指示 器 设置 的 指令 ， 四 个 目标 域 对 应 于 存储 器 中 四 个 存储 真 假 预测 标记 的 位 置 。 

例如 ， 图 7-22b 所 示 的 指令 按照 以 下 方式 执行 : 首先 对 addend 1 和 addend 2 进行 加 操作 ， 结 
果 相 加 求 和 ; 若 和 为 0， 将 跳 转 至 destination1 ; 若 和 大 于 0， 则 上 跳 转 至 destination2; 否则 的 话 就 
不 分 支 ， 继 续 执 行 接 下 来 的 指令 。 这 条 指令 总 计 包含 19 个 字 节 ， 但 重要 的 是 要 记 住 这 只 是 指令 
的 结构 化 表示 。 在 真正 执行 以 前 ， 它 将 被 翻译 成 更 加 简洁 的 与 实现 相关 的 形式 ， 实 际 上 它 完成 多 


361 


274 B7F 





条 RISC 指令 的 功能 。 例 如 ， 这 条 指令 将 可 能 被 编译 为 三 条 PowerPC 指令 ， 一 条 加 法 指令 和 紧 跟 
的 两 条 分 支 指令 。 

下 一 个 问题 是 操作 数 的 寻 址 方法 。 操 作 数 域 指向 一 个 两 级 的 表 ， 其 中 包括 操作 数 的 描述 符 ; 
该 表 被 称 作 对 象 定义 表 (object definition table) ， 或 者 ODT。 这 里 的 对 象 一 词 有 点 过 度 使 用 ; È 
与 稍 后 讨论 的 结构 化 对 象 是 不 同 的 。ODT， 以 及 访问 ODT 的 指令 如 图 7-23 所 示 。 第 一 级 表 是 
ODT 方向 向 量 表 (ODV), RARAS 16M 固定 长 度 的 域 ， 它 们 由 指令 中 3 字 节 的 操作 数 域 直 
EF. ODV 表 项 中 包含 操作 数 类 型 的 描述 和 一 个 可 选 的 指向 二 级 表 (QES) 的 指针 。OES 用 
于 描述 那些 不 适合 ODV 的 非 固 定 长 度 的 操作 数 。 

在 图 7-23 所 示 的 例子 中 ， 最 上 端 显 示 了 程序 中 的 两 条 指令 。 第 一 条 指令 是 addn (数字 加 )， 
它 的 第 一 个 操作 数 在 ODT 人 口 32 中 指定 ， 另 一 个 操作 数 在 ODT 入 口 31 中 。 这 些 操作 数 是 2 F 
节 的 二 进 制 数 〈 补 码 ，two's complement) 。 第 二 个 操作 数 是 一 个 常数 (x4A23) ，ODT AO 31 中 
的 指针 指向 OES 中 保存 这 个 常数 值 的 表 项 。 结 果 也 是 一 个 2 字 节 的 数 (如 入 口 34 显示 )。 第 二 
条 指令 以 第 一 条 指令 的 结果 为 一 个 操作 数 ， 另 一 操作 数 是 常数 值 (x13DF) ， 将 它们 相 苹 得 到 一 
个 4 字 节 二 进 制 结果 。 在 这 些 算 术 指令 中 ， 数 字 加 和 数字 乘 ， 操 作 码 都 是 通用 的 ; 操作 的 实际 类 
型 (二进制 补 码 ， 十进制 ， 或 浮 点 ) 是 由 ODT 中 给 定 的 操作 数 的 类 型 决定 的 。 


ar C[instruceton] adam] 54 [52 [51 [out] 36 | 3 | 37 Fnstroction 






1 31 32 33 34 35 36 37 
ODT 方向 binary(€2) binary (4) 
we | ui | binaryC2| binaryC4)) 
EXE 
ODT A 


字符 串 


图 7-23 AS/400 操作 数 寻 址 。AS/400 操作 数 通过 对 象 定义 表 (ODT) 指定 


值得 注意 的 是 ，ODT 中 的 人 口 指 明了 操作 数 的 类 型 和 数据 流 (addn 的 结果 是 muln 的 输 
A) 。 操 作 数 实际 的 存储 位 置 只 有 在 MI 被 翻译 成 实现 的 指令 时 才能 分 配 。 这 时 操作 数 可 能 被 分 
配 到 寄存 器 、VMM 管理 的 存储 区 域 或 者 两 者 都 有 。 常 数 操作 数 将 被 翻译 成 实现 指令 的 立即 数 
域 。 这 与 通常 编译 器 后 端 执行 的 寄存 器 分 配 很 相似 ; 只 不 过 这 里 是 VMM 翻译 器 。 

正如 前 面 所 指出 的 那样 ， 所 有 逻辑 存储 都 驻 留 在 对 象 中 ， 所 以 访问 存储 器 中 的 操作 数 必 须 
通过 指针 。 指 针 是 能 出 现在 ODT 中 的 另 一 种 操作 数 类 型 。 当 对 象 被 创建 或 符号 指针 (如 上 下 文 
中 携带 的 ) 解析 时 将 返回 一 个 指针 。 

如 前 所 述 ， 有 些 指令 是 对 象 特定 的 。MI 支持 的 对 象 如 下 所 列 。 因 为 AS/400 的 目标 是 商业 
应 用 ， 所 以 其 含有 很 多 对 数据 库 支持 的 对 象 。 操 作 系 统 可 以 根据 需要 直接 使 用 这 些 对 象 (OS 也 
是 以 对 象 为 基础 的 ) ， 或 者 使 用 这 些 对 象 作 为 原 语 构造 OS 定义 的 对 象 。 

访问 组 (access group), EFX (context) 一 一 用 于 对 象 管理 的 对 象 。 

授权 列表 (authorization list), FAFA (user profile) 一 一 用 于 支持 安全 的 对 象 。 

字 节 字符 串 空间 (byte string space) ， 数 据 空 间 (data space), RZE] (dump space) ， 空 
间 (space) 一 一 主要 用 于 保存 数据 的 对 象 。 

提交 块 (commit block), HFR (cursor) ， 数 据 空 间 索 引 (data space index), 39% (Diction- 
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ary), #43] (Index), Hite (Journal port) ， 日 志 空 间 (Journal space) 一 一 主要 用 于 支持 数 
据 库 操作 的 对 象 。 

服务 类 描述 (class-of-service description ) ， 模 式 描述 家 (Mode descriptor), ， 进 程控 制 空 间 
(Process control space) ， 队 列 (Queue), HP Hf (User profile) 一 一 用 于 进程 管理 对 象 ，OS 
使 用 。 

控制 器 描述 (controller description), 32 4 -4 J0 hik aS (Logical unit descriptor) ， 网 络 描述 
(Network description) 一 一 用 于 支持 VO 的 对 象 。 

MR (module), HAF (program) 一 一 包含 翻译 代码 的 对 象 。 


7.8.3 输入 /输出 


由 于 AS/400 主要 面向 商业 应 用 ， 所 以 其 VO 系统 也 是 重点 实现 的 ， 它 采用 独立 于 主 处 理 器 
的 O 处 理 器 (IOPs)。 与 整个 AS/400 系统 设计 思想 一 样 ，1/O 也 被 分 为 实现 无 关 和 实现 相关 
的 两 部 分 ， 其 分 界线 是 MI。 通 过 使 用 IOP， 那 些 与 设备 相关 的 工作 就 可 以 从 主 处 理 器 分 出 并 放 
到 MI 层 以 下 ， 从 而 简化 了 操作 。 

MI 层 没有 二 级 存储 (磁盘 )， 它 只 是 统一 存储 结构 的 一 部 分 。 换 句 话 说 ,磁盘 并 不 被 认为 
是 WO 系统 的 一 部 分 ， 它 在 MI 层 以 上 不 可 见 。 所 有 的 磁盘 管理 软件 、 驱 动 程序 等 都 在 系统 实现 
相关 的 部 分 。 需 要 指出 的 是 ， 在 单独 一 个 公司 设计 整个 系统 的 情况 下 ， 采 用 这 种 设计 方法 更 简 
单 ， 因 为 这 是 一 个 高 度 的 垂直 集成 系统 。MI 层 以 上 可 见 的 IO 设备 分 为 几 种 通用 类 型 ， 如 打印 
机 ， 键 盘 ， 图 形 显示 器 。 每 种 类 型 设备 的 逻辑 特性 主要 由 MI 层 称 为 逻辑 单元 描述 器 的 系统 对 象 
刻画 。 类 伏地 ， 系 统 中 的 每 个 设备 控制 器 可 以 控制 多 个 设备 。 另 外 两 个 MI 层 对 象 ， 控 制 器 描述 
对 象 和 网 络 描述 对 象 包 括 设备 控制 器 和 网 络 接口 逻辑 特性 。 操 作 系统 通过 在 MI 层 对 象 上 操作 的 
指令 和 MI 层 以 下 的 软件 (实际 上 是 VORB) 进行 交互 。 


7.8.4 处理 器 资源 


在 MI 层 以 上 ,操作 系统 建立 了 整体 的 使 用 策略 ,例如 进程 的 优先 级 以 及 各 种 资源 的 配额 等 。 
这 些 机 制 的 实际 实现 都 在 MI 层 以 下 。 也 就 是 说 ， 系 统 中 实现 相关 的 部 分 实际 管理 调度 队列 。 

总 的 来 说 ， 很 多 传统 的 操作 系统 功能 都 在 MI 层 以 下 完成 。 这 又 反映 了 AS/400 设计 环境 的 
整体 集成 架构 。 如 果 平 台 设 计 者 和 操作 系统 设计 者 在 同一 个 公司 〈 或 者 同一 个 公司 所 在 地 ) 的 
话 ， 采 用 这 种 方法 划分 OS 功能 将 会 简单 得 多 。 


7.8.5 代码 翻译 和 隐藏 


AS/400 另 一 个 有 趣 的 方面 是 管理 程序 时 隐藏 实现 相关 细节 的 方法 。 编 译 和 翻译 程序 的 过 程 
如 图 7-24 所 示 。 首 先 ， 高 级 语言 程序 被 编译 ， 产 生 的 MI 代码 和 对 象 描述 器 表 被 放 人 一 个 空间 对 
象 。 它 被 作为 创建 对 象 的 模板 。 然 后 一 个 创建 程序 指令 将 被 执行 ， 其 中 一 个 操作 数 是 指向 包含 程 
序 模板 的 空间 对 象 的 指针 。 该 指令 执行 后 将 完成 模板 内 容 到 一 个 程序 对 象 的 完整 翻译 ， 该 程序 
对 象 中 包括 实现 相关 的 可 执行 文件 ， 如 PowerPC 代码 。 这 个 创建 程序 执行 返回 一 个 结果 操作 数 ， 
它 是 一 个 指向 包含 翻译 代码 的 程序 对 象 的 指针 。 程 序 对 象 被 创建 以 后 可 以 被 执行 ， 也 可 以 像 其 
他 对 象 一 样 被 永久 或 暂时 地 保存 。 

程序 对 象 的 内 容 不 能 被 M 以 上 层 直 接 识 别 ; 也 就 是 说 和 任何 其 他 对 象 一 样 ， 程 序 对 象 的 内 
容 是 隐藏 的 。 但 是 ， 有 时 可 能 需要 查看 程序 代码 ， 如 调试 时 。 为 此 ， 原 始 的 程序 模板 也 被 作为 程 
序 对 象 的 一 部 分 保存 。 然 后 原始 的 程序 将 被 具体 化 ， 也 就 是 返回 给 用 户 最 初 的 机 器 无 关 的 代码 。 
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图 7-24 AS/400 中 程序 的 编译 和 翻译 。 编 译 HLL 程序 并 将 其 翻译 成 实现 相关 的 格式 的 步骤 


这 个 性 质 还 导致 了 另 一 个 有 趣 的 能 力 。 假 设 某 个 程序 已 经 在 给 定 硬件 平台 上 编译 并 保存 为 
固定 对 象 ， 若 硬件 平台 发 生 了 改变 ， 比 如 IBM 把 AS/400 平台 变 为 PowerPC， 因 为 原始 的 模板 存 
储 在 程序 对 象 中 ， 平 台 的 切换 对 于 用 户 来 说 是 透明 的 ; 也 就 是 说 ， 用 户 不 必 为 新 的 平台 重新 创建 
程序 对 象 。 当 用 户 尝试 在 新 的 平台 上 运行 程序 对 象 时 ，MI 层 以 下 的 软件 识别 到 翻译 代码 是 对 应 
另 一 个 平台 的 ， 并 将 使 用 原始 的 程序 模板 产生 新 主机 平台 的 翻译 代码 ， 放 置 到 程序 对 象 中 。 

最 后 ， 将 这 种 实现 相关 的 隐藏 方法 与 本 章 提 到 的 其 他 协同 设计 虚拟 机 中 的 方法 比较 一 下 是 
蛮 有 趣 的 。 其 他 协同 设计 虚拟 机 翻译 和 缓存 代码 都 是 隐藏 的 ， 这 意味 着 每 次 程序 执行 都 被 重新 
翻译 并 放置 到 代码 cache 中 ， 直 到 程序 结束 时 代码 被 置 为 无 效 。AS/400 中 ， 程 序 必 须 被 翻译 这 
个 过 程 不 是 隐藏 的 ， 而 实际 的 翻译 代码 是 隐藏 的 〈 在 对 象 内 ) 。 因 为 翻译 过 程 不 是 隐藏 的 ， 系 统 
就 可 以 长 期 保存 翻译 过 的 程序 ， 就 如 同 对 其 他 透明 的 对 象 一 样 。 


7.9 总 结 
在 某 种 程度 上 ， 现 代 的 协同 设计 虚拟 机 ， 如 同 Transmeta Crusoe 所 体现 的 ， 应 该 仍然 被 认为 
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是 计算 机 设计 的 一 种 实验 性 方法 。 这 种 方法 很 大 程度 上 基于 对 一 个 隐藏 的 代码 cache 的 动态 翻 
译 ， 而 这 种 翻译 结果 并 不 能 在 连续 的 程序 运行 中 持续 ， 所 以 翻译 开销 是 一 个 主要 的 考虑 因素 。 另 
一 方面 ， 执 行 常规 程序 时 需要 加 载 程 序 或 者 执行 其 他 加 载 和 链接 的 任务 ， 甚 至 可 能 包含 附加 的 
动态 加 载 和 链接 ， 访 问 磁 盘 都 需要 几 十 毫秒 。 如 果 从 这 个 角度 来 看 的 话 ， 动 态 翻译 需要 的 时 间 并 
不 是 很 大 ， 在 某 种 意义 上 它 可 以 被 看 作 是 加 载 过程 的 一 部 分 。 此 外 ， 随 着 时 间 的 推移 ，HLL 
VMs 向 即时 编译 的 转变 将 有 助 于 使 这 种 方法 更 为 通用 。 

早期 的 基于 对 象 的 AS/400 方法 ， 尽 管 是 成 功 的 并 且 仍 然 在 BM i 系列 机 中 使 用 ,但 是 却 并 
没有 被 其 他 商业 产品 仿效 。 它 基于 一 种 非常 规 的 对 硬件 和 软件 功能 的 划分 ， 这 种 方法 或 许 在 一 
个 完整 的 垂直 综合 系统 开发 环境 中 是 最 好 的 ， 但 与 AS/400 (System/38) 刚 开 发 出 来 时 相 比 ， 这 
种 设计 环境 现在 已 经 很 少 了 。lllinois 大 学 近期 的 一 项 研究 项 目 (Adve 等 ，2003) 提倡 一 种 新 的 
有 点 类 似 于 AS/400 MI 的 V-ISA， 它 使 用 基于 对 象 的 存储 器 体系 结构 和 一 个 寄存 器 密集 的 指令 
集 ， 一 个 主要 目标 就 是 把 影像 性 能 的 关键 信息 向 硬件 层次 传递 ， 在 硬件 层 它 能 被 更 好 地 使 用 。 在 
其 他 相关 的 工作 中 ，DELI 项 目 (Desoli 2002) 建立 在 早期 的 HP Dynamo 项 目的 基础 上 ， 并 在 仿 
真 层 上 提供 了 一 个 可 随时 调用 的 接口 ， 从 而 使 得 应 用 程序 或 者 系统 软件 能 够 与 仿真 过 程 交互 。 

RE IBM Daisy/BOA 项 目 已 经 深入 到 软件 开发 和 模拟 阶段 中 ，Transmeta Crusoe 仍然 是 迄今 
为 止 现代 协同 设计 虚拟 机 的 唯一 一 个 真实 的 实例 。 这 些 系 统 都 使 用 一 个 基于 VLIW 的 目标 指令 集 
体系 结构 ， 尽 管 VLIW 对 通用 计算 的 适用 性 仍然 是 一 个 争论 的 话题 。Transmeta 处 理 器 以 能 效 为 
目标 ， 它 们 的 性 能 并 不 能 和 可 以 动态 重 定 序 指令 的 高 端 超标 量 处 理 器 相提并论 。 因 为 大 部 分 同 
时 代 的 处 理 器 使 用 乱 序 的 超标 量 设计 ， 所 以 在 评价 性 能 时 ， 很 难 将 协同 设计 方面 与 VLIW 方面 分 
离 ， 并 从 中 获得 任何 关于 协同 设计 虚拟 机 整体 适应 性 的 结论 。 但 底线 是 协同 设计 虚拟 机 方法 仍 
然 是 一 个 很 令 人 感 兴趣 的 技术 ， 它 的 全 部 潜力 有 待 彻底 确定 。 

最 后 ， 协 同 设计 虚拟 机 的 一 个 使 人 感 兴趣 的 应 用 是 把 多 个 源 指 令 集 体系 结构 映射 到 到 同一 
个 平台 上 。 更 确切 的 说 ， 就 是 研究 出 一 个 单 处 理 器 ， 它 依靠 加 载 到 隐藏 存储 器 上 的 仿真 软件 ， 能 
够 执行 来 自 多 个 不 同 ISA 的 软件 。 这 些 同一 的 结构 (Gschwind 等 ，2000) 将 能 够 允许 服务 器 农 
场 中 的 计算 机 针对 在 其 上 执行 的 软件 的 需求 进行 动态 定制 。 
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第 8 章 系统 虚拟 机 


人 们 很 早 就 认识 到 在 一 个 典型 计算 机 系统 里 很 多 硬件 资源 都 没有 被 充分 利用 ， 于 是 开发 了 
“分 时 共享 ”技术 来 提高 资源 的 利用 率 ， 它 允许 多 个 用 户 同时 访问 单一 计算 机 系统 ， 并 且 让 每 个 
用 户 都 感觉 到 拥有 全 部 系统 资源 。 为 了 达到 这 个 目的 ,一 个 多 道 程序 操作 系统 实质 上 为 每 一 个 
应 用 级 程序 实现 了 一 个 进程 虚拟 机 ， 并 在 程序 间 按 照 分 时 共享 的 方式 来 调度 资源 。 

系统 虚拟 机 在 此 概念 的 基础 上 更 进 了 一 步 ， 它 提供 了 一 个 完整 系统 的 类 似 感 觉 。 一 个 系统 
虚拟 机 环境 能 同时 支持 多 个 系统 映像 ， 每 个 都 运行 彼此 独立 的 操作 系统 和 相关 的 应 用 程序 ， 每 
个 操作 系统 控制 和 管理 一 组 虚拟 的 硬件 资源 ， 如 图 8-1 所 示 。 虚 拟 资源 包括 处 理 器 、 存 储 资源 和 
系统 的 VO 外 围 设备 等 。 

在 一 个 系统 虚拟 机 环境 里 ， 主 机 平台 上 的 真实 硬件 资源 被 客户 系统 虚拟 机 共享 ， 硬 件 资源 
的 分 配 和 访问 由 软件 层 一 一 虚拟 机 监控 程序 (VMM) 负责 管理 。 虚 拟 机 监控 程序 拥有 真实 的 系 
统 硬件 资源 ， 并 使 其 对 一 个 或 多 个 客户 操作 系统 可 用 ， 这 些 操作 系统 轮流 执行 在 相同 的 硬件 上 。 
因此 ， 系 统 虚拟 机 环境 中 的 客户 操作 系统 就 有 了 拥有 系统 资源 的 映像 ， 随 后 可 将 其 所 属 的 资源 
分 配给 它 的 不 同 用 户 程序 。 

每 个 虚拟 资源 可 能 有 也 可 能 没有 相关 的 物理 资源 。 当 相关 的 物理 资源 有 效 时 ， 虚 拟 机 监控 
程序 会 决定 在 各 个 需要 资源 的 虚拟 机 之 间 的 访问 调度 策略 : 资源 划分 或 者 分 时 共享 。 而 当 一 个 
虚拟 资源 没有 相应 的 硬件 资源 时 ， 虐 拟 机 监控 程序 会 通过 一 系列 软件 和 主机 平台 上 其 他 可 用 物 
理 资源 的 结合 来 仿真 实现 对 应 的 硬件 功能 ， 满 足 虚拟 资源 的 要 求 。 
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图 8-1 系统 虚拟 机 环境 例子 。 在 该 例子 中 ，Intel IA-32 平台 能 够 同时 
运行 Linux, Windows 和 Solaris 操作 系统 以 及 它们 的 应 用 程序 


系统 虚拟 机 有 许多 有 用 的 应 用 ， 有 些 已 成 为 历史 ， 有 些 当 前 还 很 流行 ， 还 有 更 多 会 在 将 来 显 
现 出 它 的 重要 性 ， 下 面 将 讨论 其 中 的 一 些 应 用 。 

。 实现 多 道 程序 设计 : 使 用 多 个 单 用 户 虚 拟 机 是 实现 多 道 程序 设计 和 分 时 共享 的 一 个 简单 
方法 ， 它 不 需要 提供 一 个 完整 的 多 道 程 序 操作 系统 。 每 个 多 用 户 环境 下 工作 的 用 户 会 觉 
得 拥有 整个 机 器 ， 包 括 CPU、 存 储 设备 和 外 围 设备 。 许 多 早期 大 型 机 (如 IBM system/ 
370 和 其 后 续 同 系列 机 器 ) 上 的 虚拟 机 用 户 都 将 虚拟 技术 作为 分 时 系统 的 另 一 选择 方案 ， 
他 们 运行 一 个 简单 紧凑 而 有 效 的 单 用 户 操作 系统 一 一 会 话 监 视 系 统 〈Conversational Mo- 
nitor System, CMS) 来 代替 当时 完整 的 分 时 共享 操作 系统 。 
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多 个 单 应 用 程序 虚拟 机 : 这 是 多 个 单 用 户 虚拟 机 的 概念 扩展 ， 将 每 个 应 用 程序 在 其 专用 
的 虚拟 机 里 运行 增强 了 系统 的 健壮 性 。 在 传统 的 系统 里 单个 应 用 程序 及 操作 系统 的 异常 
行为 可 能 会 导致 整个 机 器 崩溃 。 而 当 这 种 情况 发 生 在 虚拟 机 上 时 ， 错 误 不 太 可 能 影响 到 
在 另 一 个 虚拟 机 上 运行 的 程序 。 所 以 在 一 个 新 应 用 由 于 编程 缺陷 或 病毒 的 影响 可 能 会 使 
整个 系统 崩溃 时 ， 这 种 方法 会 比较 有 用 。 

多 个 安全 环境 : 系统 虚拟 机 提供 一 个 “ 沙 金 ”来 隔离 各 个 不 同 的 系统 运行 环境 ， 确 保 了 
单个 操作 系统 可 能 无 法 提供 的 一 个 安全 层次 。 比 如 : 一 个 习惯 于 在 单机 上 运行 程序 的 用 
户 可 能 并 不 愿意 将 自己 的 应 用 转移 到 Web 服务 器 上 ， 除 非 服务 器 能 够 保证 他 的 私有 资源 
和 活动 不 被 服务 器 上 其 他 用 户 访问 或 者 监控 。 而 虚拟 机 则 实现 了 这 样 一 种 环境 ,实际 上 
所 有 用 户 都 是 彼此 隔离 的 而 且 均 不 能 访问 其 他 用 户 的 资源 或 者 观察 其 他 用 户 的 操作 。 
管理 应 用 环境 : 某 些 机 构 为 用 户 提供 一 组 核心 支持 程序 集 ， 但 用 户 还 希望 安装 他 们 自己 
的 应 用 程序 ， 虚 拟 机 技术 允许 将 所 有 核心 程序 集 放置 在 一 个 虚拟 机 上 ， 和 用 户 安装 新 应 
用 或 开发 程序 的 其 他 虚拟 机 分 隔 ， 来 达到 保护 作用 。 

混合 操作 系统 环境 : 单一 硬件 平台 能 同时 支持 两 个 不 同 的 操作 系统 。 例 如 ， 一 个 用 户 希 
望 在 一 个 操作 系统 上 运行 办 公 工 具 软 件 ， 而 在 另 一 个 系统 上 开发 应 用 程序 ， 他 就 可 以 在 
一 个 硬件 平台 上 安装 两 个 不 同 的 虚拟 机 来 分 别 支 持 两 个 不 同 的 系统 。 

遗留 的 应 用 程序 . 在 一 个 新 版 本 操作 系统 发 布 时 ， 操 作 系 统 开发 人 员 经 常会 对 一 些 很 少 
用 的 特性 降低 性 能 ， 而 对 新 应 用 所 需要 的 新 特性 提高 性 能 。 在 这 种 情况 下 ， 如 果 用 户 还 
需要 在 不 降低 性 能 的 前 提 下 运行 旧 的 应 用 程序 ， 就 可 以 通过 一 个 虚拟 机 来 在 旧版 本 操作 
系统 上 运行 遗留 的 应 用 ， 而 在 另 一 个 虚拟 机 上 运行 新 版 本 操作 系统 来 利用 其 改进 的 新 
特性 。 

跨 平 台 应 用 开发 : 软件 开发 者 经 常 需要 实现 并 支持 在 多 个 操作 系统 上 运行 的 软件 ， 虚 拟 
机 技术 允许 软件 开发 者 在 同一 硬件 平台 上 运行 多 个 虚拟 机 来 测试 跨 平 台 软 件 ， 这 种 技术 
比 在 多 个 测试 硬件 平台 上 运行 不 同 的 操作 系统 更 方便 、 更 经 济 。 

新 系统 过 渡 : 系统 虚拟 机 人 允许 一 个 用 户 逐 步 迁 移 到 新 操作 系统 ， 他 能 够 在 一 个 虚拟 机 上 
测试 运行 新 系统 ， 同 时 在 男 一 个 虚拟 机 上 运行 旧 系 统 和 应 用 ， 当 用 户 确 认 所 有 的 相关 应 
用 程序 已 经 可 以 在 新 系统 上 正确 运行 时 再 将 旧 系 统 删 除 。 

系统 软件 开发 : 在 大 型 系统 中 ,在 新 系统 软件 开发 时 经 常 还 需要 有 旧 系统 运行 一 些 重要 的 
应 用 ， 这 种 情况 下 由 于 新 软件 出 错 而 使 整个 系统 崩溃 的 代价 是 非常 昂贵 的 。 而 使 用 虚拟 
机 技术 ， 将 开发 环境 封装 在 一 个 虚拟 机 内 并 和 其 他 运行 产品 级 应 用 的 虚拟 机 分 隔 开 可 以 
避免 这 个 问题 。 

操作 系统 培训 : 在 系统 管理 人 员 培 训 时 经 常 需要 演示 改变 系统 运行 参数 和 运行 策略 的 方 
法 和 效果 ， 在 虚拟 机 上 而 不 在 真实 机 器 上 运行 操作 系统 更 适合 这 种 培训 ， 这 样 系统 的 其 
他 用 户 就 不 会 碰 到 意料 之 外 的 结果 。 

客户 帮助 支持 : 为 了 判断 用 户 所 过 到 问题 的 性 质 和 原因 ， 客 户 帮 助 服务 人 员 可 以 构建 一 
个 虚拟 机 来 仿真 客户 的 硬件 配置 ， 从 而 不 需要 拥有 所 有 可 能 的 硬件 配置 ， 而 只 采用 一 个 
通用 的 硬件 平台 来 模拟 实现 所 有 的 不 同 结构 。 

操作 系统 分 析 : 在 虚拟 机 上 运行 操作 系统 允许 虚拟 机 监控 程序 有 选择 地 记录 对 硬件 资源 
的 访问 。 不 仅 某 一 类 型 的 所 有 事件 〈 如 页 失效 ) 可 以 统计 出 来 ， 而 且 它 们 的 细节 信息 ， 
如 性 质 、 原 因 和 要 求 如 何 满足 的 等 都 会 被 记录 下 来 。 并 且 ， 所 有 统计 分 析 的 编程 都 可 以 
在 操作 系统 外 封装 ， 仅 仅 需要 与 虚拟 机 监控 程序 通信 。 当 前 操作 系统 研究 人 员 普 遍 采 用 
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在 虚拟 机 上 进行 实验 而 不 再 直接 在 硬件 平台 上 实验 。 早 期 Keefe (1968) 就 在 IBM 的 大 
型 机 上 使 用 虚拟 机 技术 完成 了 系统 评测 ， 而 用 户 模 式 Linux 系统 (UMLifiux，2003) 也 
采用 虚拟 机 技术 来 测试 Linux 系统 的 容错 能 力 。 
。 事件 监控 : 一 些 虚 拟 机 提供 了 在 本 地 系统 上 无 法 实现 的 功能 ， 例 如 虚拟 机 提供 了 对 执行 
的 跟踪 和 关键 点 的 机 器 状态 转 储 ， 同 样 ， 虚 拟 机 提供 的 从 已 保存 的 状态 重 现 系 统 执行 的 
能 力也 为 系统 诊断 错误 提供 了 强 有 力 的 支持 。 

。 系统 封装 : 系统 虚拟 机 提供 了 一 条 封装 机 器 状态 的 捷径 ， 这 对 于 建立 系统 状态 检查 点 非 
常 有 用 ， 使 其 能 够 在 不 同 的 时 间或 者 在 不 同 的 宿主 机 上 恢复 运行 。 

我 们 将 要 更 详细 地 讨论 系统 虚拟 机 ， 但 在 此 之 前 ， 我 们 首先 要 指出 本 章 只 是 讨论 了 一 类 很 
重要 的 系统 虚拟 机 而 不 是 所 有 的 系统 虚拟 机 ， 确 切 地 说 ， 如 1.5 节 术 语 中 描述 的 ， 本 章 的 讨论 主 
要 集中 在 宿主 计算 机 和 客户 计算 机 的 指令 集体 系 结构 相同 的 系统 虚拟 机 。 进 一 步 说 ,我 们 将 更 
关注 单 处 理 器 系统 ， 而 其 他 类 型 系统 虚拟 机 的 重要 特征 会 在 本 书 的 其 他 章节 讨论 。 

多 处 理 器 虚拟 是 单 处 理 器 虚拟 的 一 个 简单 扩展 ， 但 是 在 多 处 理 器 虚拟 化 中 也 有 一 些 特殊 因 
素 需要 仔细 考虑 。 一 种 考虑 是 单 处 理 器 虚拟 化 需要 通过 分 时 共享 单一 处 理 器 资源 来 实现 ， 而 多 
处 理 器 的 虚拟 化 则 可 以 通过 在 不 同 的 虚拟 机 中 划分 不 同 的 物理 处 理 器 来 实现 。 在 多 处 理 器 虚拟 
化 中 采用 分 时 策略 还 是 划分 策略 为 它 的 实现 提供 了 更 多 的 可 选 方案 。 

另 一 个 重要 的 考虑 在 于 共享 存储 的 多 处 理 器 ， 特 别 是 在 客户 和 宿主 计算 机 的 指令 集体 系 结 
构 不 同 的 情况 下 ， 客 户 计算 机 和 宿主 计算 机 所 支持 的 存储 模型 不 一 样 。 存 储 模 型 有 2 个 关键 方 
面 : 存储 一 致 性 和 存储 同一 性 。 这 两 个 方面 都 影响 一 个 处 理 器 对 存储 器 的 访问 被 系统 中 其 他 处 
理 器 观察 到 的 结果 ， 假 如 宿主 系统 不 支持 客户 系统 的 存储 一 致 性 和 /或 存储 同一 性 模型 ， 那 么 虚 
拟 化 进程 需要 采取 一 些 特别 的 步骤 来 确保 兼容 性 。 我 们 将 在 第 9 章 讨论 多 处 理 器 虚拟 化 。 

当 客 户 和 宿主 计算 机 的 指令 集体 系 结构 不 同时 ， 虚 拟 机 监控 程序 中 的 软件 能 够 仿真 虚拟 指 
令 集体 系 结构 ， 这 种 技术 在 第 2 ~4 章 中 已 经 讨论 过 。 第 9 章 会 讨论 当 客 户 和 宿主 计算 机 的 指令 
集体 系 结构 不 同时 ， 系 统 虚拟 机 所 采用 的 相关 技术 。 


8.1 关键 概念 
在 本 节 我 们 将 介绍 硬件 平台 的 各 个 不 同 部 分 ， 以 期 达到 对 虚拟 化 实现 过 程 的 一 个 大 致 理解 。 
8. 1.1 外 观 


在 许多 系统 虚拟 机 中 ， 提 供 多 个 计算 机 的 模拟 映像 是 一 个 重要 的 组 成 部 分 ， 它 能 够 通过 纯 
软件 的 方式 实现 ， 或 者 在 某 些 实例 中 通过 对 一 部 分 硬件 资源 的 复制 来 实现 的 。 例 如 ， 可 能 存在 不 
同 用 户 都 直接 使 用 硬件 资源 的 情况 ， 也 就 是 键盘 、 显 示 器 和 各 自 的 外 围 设备 〈 如 CD ROM 驱动 
器 ) 都 被 复制 了 一 份 提供 给 不 同 的 用 户 使 用 ， 而 另外 的 硬件 资源 则 通过 虚拟 软件 来 实现 共享 ， 
如 图 8-2 所 示 。 

当 一 个 用 户 想 在 相同 硬件 上 运行 两 个 操作 系统 时 ， 没 有 必要 复制 任何 硬件 资源 ,但 可 以 给 
用 户 以 两 个 操作 系统 同时 运行 的 假象 。 用 户 可 以 通过 硬件 转换 器 或 者 在 键盘 上 输入 一 个 特定 的 
键 序列 来 实现 个 人 设备 在 不 同 虚拟 机 之 间 的 转换 。 

在 有 些 系统 虚拟 机 环境 中 ， 会 有 一 个 主 操 作 系 统 相 对 于 第 二 个 操作 系统 来 说 更 重要 。 这 个 
主 操作 系统 的 用 户 界 面 提供 一 个 窗口 来 显示 第 二 个 操作 系统 的 用 户 界面 ， 在 该 窗口 内 完成 与 第 
二 个 操作 系统 上 运行 的 应 用 程序 的 所 有 交互 。 在 宿主 虚拟 机 上 ， 例 如 主 操作 系统 是 Windows， 可 
以 在 桌面 上 创建 一 个 图 形 窗口 作为 同一 硬件 平台 上 运行 的 其 他 虚拟 机 的 交互 接口 ， 类 似 于 在 
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Windows 桌面 上 打开 一 个 DOS 窗口 来 运行 传统 的 DOS 程序 。 
To 


network 





f 共享 硬件 
专属 于 用 户 1 [一 一 一 一 专属 于 用 户 2 


图 8-2 ”两 用 户 虚拟 机 系统 的 硬件 复制 。 终 端 控 制 器 负责 对 多 用 户 的 请 求 进行 收集 和 标记 ， 假 如 没有 这 种 
硬件 设备 ， 那 么 计算 机 底板 则 必须 有 足够 的 揪 槽 来 揪 人 两 套 个 人 设备 所 需 的 适配器 


8. 1.2 状态 管理 


计算 机 的 结构 状态 被 机 器 的 硬件 资源 保存 并 维护 。 从 性 能 角度 看 ， 所 有 保持 状态 的 硬件 资 
源 是 不 相同 的 ， 通 常 存在 着 一 个 状态 资源 的 结构 化 层次 ， 即 从 结构 顶层 的 寄存 器 到 结构 底层 的 
磁盘 等 外 部 存储 。 在 一 个 虚拟 机 系统 内 ， 每 个 虚拟 机 都 有 它 自 己 的 结构 状态 信息 ， 而 在 主 硬件 平 
台 上 可 能 会 没有 足够 的 硬件 资源 来 将 所 有 虚拟 机 的 状态 都 映射 到 主 存储 结构 上 的 原 有 层次 。 例 
如 ,一 个 客户 机 的 寄存 器 状态 可 能 会 作为 寄存 器 上 下 文 块 的 一 部 分 实际 保存 在 主机 平台 的 主 
存 中 。 

在 正常 操作 时 ，VMM 周期 性 地 在 客户 虚拟 机 之 间 切 换 控制 。 不 论 状 态 实际 在 哪里 保存 ， 只 
要 执行 了 改变 客户 机 状态 的 操作 〈 如 通过 指令 执行 ) ， 在 宿主 计算 机 上 保存 的 状态 就 应 该 与 客户 
在 本 地 平台 上 执行 时 一 样 进行 修改 。 这 就 是 在 本 书 引 言 里 讨论 的 并 由 图 1-2 说 明 的 虚拟 机 同形 概 
念 。 有 两 种 基本 的 状态 管理 方式 来 实现 它 : 

一 种 是 间接 方式 ， 即 在 主机 存储 层次 的 固定 位 置 保存 每 个 客户 机 的 状态 ， 并 使 用 VMM 管理 
的 指针 来 指出 当前 活路 的 客户 机 状态 。 当 VMM 在 不 同 的 客户 机 系统 间 切 换 时 ， 它 改变 指针 使 之 
匹配 当前 的 客户 机 。 如 图 8-3a 所 示 ， 指 针 实 际 指向 了 当前 活跃 的 客户 虚拟 机 的 寄存 器 上 下 文 块 。 
这 与 虚拟 存储 系统 中 的 情形 类 似 ， 其 中 页 表 指 针 被 操作 系统 用 来 指向 当前 活路 进程 的 地 址 空间 。 

但 是 当 存 储 客户 机 状态 的 存储 器 资源 和 本 地 硬件 平台 保存 状态 的 资源 特征 不 一 样 时 ， 这 种 
间接 方式 的 效率 会 相对 较 低 。 就 像 在 图 8-3a 中 ， 所 有 的 寄存 器 状态 是 存储 在 存储 器 里 的 。 在 这 
种 情况 下 ， 要 执行 从 虚拟 机 2 上 寄存 器 A 到 相同 虚拟 机 的 寄存 器 B 的 复制 操作 ，VMM 必须 执行 
从 存储 器 到 存储 器 的 复制 ， 包 括 执行 一 个 从 代表 寄存 器 A 的 存储 器 地 址 到 一 个 临时 寄存 器 的 读 
操作 和 随后 从 临时 寄存 器 到 代表 寄存 器 B 的 存储 器 地 址 的 写 操作 ， 这 样 一 个 复制 操作 就 使 用 了 
两 条 访 存 操作 ， 而 且 可 能 还 会 有 其 他 操作 ， 如 需要 将 寄存 器 文件 指针 加 载 到 地 址 寄存 器 ， 这 样 就 
会 带 来 更 大 的 开销 。 
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Load register block pointer 
to point to VM's registers 
in VMM memory 


当 虚 拟 机 (VM) - Aaa - Load program counter to 
被 激活 时 ，VMM ree point to VM program and 
改变 指针 start execution 


load temp <- reg_pointer, index(A) 
store reg_pointer, index(B) <- temp 





Copy register state from 
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mov reg A -> reg B 
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”VM3 的 Copy register state from 
”寄存 器 什 processor back to system 
memory 





b) 人 方式 。 图 中 右边 的 框图 说 明了 在 激活 虚拟 机 和 拷贝 寄存 器 值 时 执行 的 
， 在 第 一 个 例子 中 ， 寄 存 器 值 从 内 存 表 中 读 出 并 拷贝 到 表 中 的 另 一 个 位 
于 人 在 第 二 个 例 于 中 ， 寄存 器 被 直接 使 用 来 完成 移动 操作 


图 8-3 寄存 器 文件 保存 虚拟 状态 的 方式 


为 了 解决 这 个 问题 ,管理 客 户 机 状态 的 另 一 条 途径 就 是 将 当前 活跃 的 客户 机 状态 信息 直接 
复制 到 主机 存储 结构 的 正常 位 置 ， 而 当 另 一 个 客户 机 被 激活 时 再 将 其 拷 回 。 例如， 在 图 8-3b 中 ， 
VMM 在 激活 虚拟 机 2 时 将 整个 客户 机 的 寄存 器 内 容 都 拷贝 进 主机 寄存 器 文件 (在 保存 了 前 一 个 
活跃 客户 机 的 寄存 器 文件 之 后 ) 。 采 用 这 种 方法 ， 在 执行 从 虚拟 机 2 寄存 器 A 到 相同 虚拟 机 的 寄 
存 器 B 的 复制 操作 时 ， 只 需 直接 运行 一 条 本 地 寄存 器 move 指令 即 可 。 许 多 系统 虚拟 机 实现 的 目 
标 都 是 使 客户 机 代码 在 主机 平台 上 本 地 化 运行 〈 不 要 仿真 ) 。 因 此 ， 在 寄存 器 例子 中 ， 除 去 一 次 
对 旧 客 户 机 寄存 器 状态 的 移出 开销 和 新 客户 机 寄存 器 状态 的 移 人 开销 外 ， 所 有 的 执行 都 能 按 本 
地 机 的 执行 速度 高 速 运行 。 

对 以 上 两 种 方式 的 选择 依赖 于 使 用 的 频率 和 保存 VMM 管理 的 客户 机 状态 的 硬件 资源 和 在 本 
地 硬件 平台 时 是 否 相同 。 对 于 使 用 频率 很 高 的 状态 信息 ， 比 如 通用 寄存 器 就 通常 采用 将 当前 活 
牙 的 虚拟 机 状态 交换 到 相关 的 实际 硬件 资源 的 方式 ， 即 复制 方式 。 


8.1.3 资源 控制 


在 一 个 系统 虚拟 机 环境 里 ， 硬 件 资源 ， 包 括 处 理 器 资源 都 会 按照 配置 要 求 在 虚拟 机 创建 时 
分 配给 虚拟 机 使 用 。 而 在 资源 被 分 配给 一 个 客户 虚拟 机 后 ， 很 重要 的 一 点 就 是 VMM 必须 能 够 将 
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这 些 资 源 收回 并 分 配给 其 他 虚拟 机 使 用 。 因 此 ，VMM 必须 保持 对 所 有 硬件 资源 的 全 局 控制 ， 即 
使 它们 有 时 会 被 当前 运行 的 客户 虚拟 机 使 用 ， 本 节 将 说 明 如 何 实 现 这 些 方法 。 

首先 我 们 注意 到 在 传统 的 分 时 系统 中 有 一 个 相似 的 概念 ， 在 单机 上 同时 运行 多 个 任务 ， 而 
每 个 任务 都 能 在 任何 时 间 访 问 它 自 己 的 使 用 资源 。 尽 管 如 此 ， 机 器 上 的 有 些 资源 却 只 能 被 操作 
系统 访问 而 不 能 被 应 用 程序 直接 访问 。 一 个 这 样 的 资源 就 是 时 间 间 隔 计时 器 ， 当 被 操作 系统 载 
人 一 个 值 后 ， 它 就 按时 钟 递减 计数 ， 当 数值 达到 零 时 便 触发 一 个 中 断 。 在 将 控制 权 转 交 给 一 个 用 
户 进程 前 ， 操 作 系 统 会 以 用 户 进程 的 最 大 允许 运行 时 间 初 始 化 时 间 间 隔 计 时 器 ， 计 时 器 中 断 将 
会 保证 在 最 大 时 间 间 隔 内 将 控制 交还 给 操作 系统 。 从 而 操作 系统 使 用 计时 器 确保 没有 用 户 进程 
无 休止 运行 ， 以 达到 对 处 理 器 的 有 效 控制 ， 进 而 可 以 通过 对 处 理 器 的 控制 来 完成 对 其 他 资源 的 
控制 。 这 个 控制 的 概念 和 我 们 在 第 3 章 讲 述 的 仿真 框架 的 运行 时 控制 有 很 大 的 相似 性 。 

这 种 情况 与 在 系统 虚拟 机 环境 中 是 差不多 的 ， 其 首要 概念 就 是 在 不 同 的 虚拟 机 间 分 时 共享 
资源 。 我 们 在 8. 2. 1 节 中 将 会 看 到 ， 实 现 虚 拟 机 对 资源 整体 控制 的 一 种 简便 方法 就 是 截获 那些 对 
特权 资源 的 访问 ， 如 时 间 间 隔 计 时 器 。 因 此 ， 这 些 特权 资源 就 不 会 被 虚拟 机 直接 使 用 ,而 一 直 由 
VMM 来 仿真 这 些 资源 的 操作 行为 。 例 如 ，VMM 会 首先 自己 处 理 时 间 间 隔 计 时 器 中 断 而 不 会 让 
各 个 虚拟 机 内 的 操作 系统 直接 处 理 它 。 中 断 处 理 代 码 则 完成 了 包括 保存 当前 客户 虚拟 机 状态 、 
决定 下 一 个 被 激活 的 客户 庶 拟 机 和 加 载 下 一 客户 虚拟 机 运行 所 需 的 状态 等 操作 。 就 像 前 面 提 到 
的 那样 ， 可 以 通过 采用 指针 方式 、 复 制 状态 到 硬件 资源 中 的 方式 或 者 两 者 同时 采用 来 完成 这 些 
工作 ,图 8-4 说 明了 VMM 在 调度 时 执行 的 操作 。 


VMM 决定 下 一 个 VMM 为 下 一 个 
VMM 保存 被 激活 的 VM VM 保存 结构 状态 
当前 运行 VMM 设 定 计 时 VMM 将 PC 指向 下 一 个 
计时 器 VM 的 结 器 间隔 ， 执 行 VM 的 操作 系统 的 计时 
中 断 发 生 构 状 态 中 断 使 能 操作 器 中 断 处 理 程序 
4 
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前 面 提 到 的 ， 如 果 在 用 户 模式 下 遇 到 特权 指令 ， 必 须 由 VMM 来 截获 和 仿真 它 ， 这 样 只 要 客户 操 
作 系统 发 射 了 特权 指令 ，VMM 就 能 得 到 对 系统 的 全 局 控制 权 (8. 2 节 将 仔细 描述 ) 。 

一 种 给 虚拟 机 公平 分 配 硬 件 资源 的 方案 是 让 各 个 虚拟 机 轮流 获得 大 致 相同 的 资源 控制 时 间 。 
这 里 的 问题 与 多 道 程序 操作 系统 中 的 问题 类 似 。 如 果 分 配给 虚拟 机 的 时 间 过 大 ， 会 出 现 资源 闲 
置 、 利 用 率 不 高 的 问题 ; 而 如 果 时 间 过 小 ， 又 会 出 现 系统 切换 次 数 过 多 、 切 换 开 销 过 大 的 问题 ， 
最 终 影响 整个 系统 性 能 。 

为 了 公平 分 配 策略 的 正常 运行 ， 必 须要 求 虚拟 机 上 的 客户 操作 系统 不 能 直接 访问 时 间 间 隔 
计时 器 装置 来 改变 下 次 计时 器 中 断 设置 。 更 进一步 ， 为 保证 虚拟 机 上 操作 的 完全 透明 ， 也 不 能 允 
许 客户 操作 系统 读 取 VMM 设 定 的 计时 器 值 (这 种 透明 性 保证 操作 系统 在 虚拟 机 中 和 在 真实 机 器 
中 始终 按照 相同 的 方式 工作 ) 。 而 在 以 后 的 章节 中 ， 我 们 还 将 看 到 ，VMM 能 够 为 客户 操作 系统 
提供 一 个 仿真 的 虚拟 时 间 间 隔 计时 器 。 

严格 的 VMM 客户 机 计时 器 仿真 可 能 会 引起 某 些 用 户 代码 和 运行 时 间 过 长 的 问题 ， 从 而 使 其 他 
的 虚拟 机 处 于 “饥饿 ”状态 而 无 法 使 用 硬件 资源 。 因 此 ，VMM 必须 检查 每 个 客户 机 的 计时 中 断 
设置 ， 当 发 现 有 过 长 的 时 间 设 置 时 就 必须 重 写 它 的 请 求 时 间 来 保持 各 个 虚拟 机 之 间 的 平衡 。 这 
个 例子 正好 说 明了 特权 资源 的 仿真 必须 由 VMM 来 完成 ， 因 为 要 考虑 整个 虚拟 机 系统 的 效率 和 操 
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作 的 公平 性 ， 而 不 是 仅仅 考虑 单个 虚拟 机 的 性 能 。 
8. 1.4 本 地 虚拟 机 和 宿主 虚拟 机 


现在 大 家 已 经 清楚 了 VMM 是 任何 系统 虚拟 机 环境 里 的 关键 组 件 ， 它 负责 在 各 个 客户 虚拟 机 
之 间 调 度 和 管理 硬件 资源 的 分 配 ， 因 此 它 也 是 系统 中 共享 物理 资源 的 控制 点 。 这 些 共 享 资源 包 
括 CPU 里 的 寄存 器 、 系 统 的 真实 存储 器 和 各 种 附 在 系统 上 的 WO 设备 。 为 了 实现 系统 的 高 效 操 
作 ， 至 少 部 分 VMM 代码 的 权限 应 高 于 它 所 支持 的 客户 虚拟 机 的 实际 权限 。 实 际 权 限 是 指 在 虚拟 
机 环境 中 运行 的 代码 对 实际 硬件 的 使 用 权限 ， 正 如 我 们 稍 后 会 看 到 的 ， 这 可 能 和 客户 机 上 上 所感 


觉 到 的 权限 是 不 同 的 。 
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a) 传统 单 处 理 器 系统 b) AK BIL c) 用 户 模式 宿主 d) 双重 模式 的 宿主 
虚拟 机 系统 BMRA 
图 8-5 本 地 和 宿主 虚拟 机 系统 。(a) 传统 单 处 理 器 的 操作 系统 运行 于 特权 模式 。(b) 在 一 个 本 地 虚拟 机 
系统 中 ，VMM 执行 在 特权 模式 。(c ~ d) 一 个 可 信 的 宿主 操作 系统 运行 于 宿主 虚拟 机 系统 的 特权 
模式 ， 客 户 操作 系统 都 驻 留 在 虚拟 机 中 并 运行 于 非特 权 模式 ，VMM 在 (c) 中 完全 运行 于 用 户 模 
A, MÆ (d) 中 则 部 分 运行 于 特权 模式 ， 或 者 说 运行 于 双 模式 


像 前 面 我 们 指出 的 那样 ，VMM 和 虚拟 机 的 关系 就 像 传统 分 时 共享 系统 里 操作 系统 和 应 用 程 
序 之 间 的 关系 一 样 。 正 如 图 8-5a 中 所 示 ， 传 统 分 时 共享 系统 中 操作 系统 的 运行 权限 ( 系统 模式 ) 
高 于 应 用 程序 〈 用 户 模式 ) 。 而 如 果 在 一 个 虚拟 机 系统 内 VMM 运行 在 特权 模式 ， 其 操作 权限 高 
于 客户 机 操作 权限 ， 这 种 虚拟 机 就 被 称 为 本 地 虚拟 机 系统 。 在 一 个 本 地 虚拟 机 系统 中 ，VMM 是 
运行 在 系统 结构 内 最 高 运行 级 别 上 的 唯一 软件 ， 如 图 8-5b 所 示 。 从 概念 上 说 ，VMM 首先 安装 在 
裸 机 之 上 ， 随 后 客户 操作 系统 都 安装 在 VMM 上 。 所 有 客户 操作 系统 和 其 他 较 低级 别 的 应 用 软件 
都 运行 在 比 VMM 权限 更 低 的 模式 下 ， 这 通常 就 意味 着 它们 的 权限 都 由 VMM 仿真 实现 。 本 地 虚 
拟 机 系统 已 被 广泛 地 使 用 和 研究 ， 将 在 以 后 的 章节 中 详细 讨论 。 

为 了 用 户 操作 的 方便 和 虚拟 机 实现 的 简单 ， 经 常会 将 虚拟 机 安装 在 已 运行 现 有 操作 系统 的 
主机 平台 上 ， 这 样 的 系统 称 为 宿主 虚拟 机 系统 (这 里 的 宿主 是 指 下 层 的 操作 系统 )。 在 宿主 虚拟 
机 系统 中 ，VMM 利用 宿主 操作 系统 上 的 可 用 操作 来 控制 和 管理 虚拟 机 需要 的 硬件 资源 。 但 是 由 
于 没有 源 代 码 和 商业 许可 证 的 原因 ， 要 修改 一 个 商用 操作 系统 是 不 可 行 的 ， 于 是 VMM 就 只 能 在 
用 户 模式 下 实现 ， 权 限 低 于 宿主 操作 系统 ， 如 图 8-5c 所 示 。 这 种 系统 通常 也 称 为 用 户 模式 宿主 
虚拟 机 系统 。 但 为 了 效率 等 原因 ， 希 望 能 让 部 分 VMM 代码 运行 在 特权 模式 ， 这 通常 采用 修改 宿 
主 操作 系统 来 扩展 它 的 功能 ， 比 如 通过 内 核 扩 展 或 者 设备 驱动 等 技术 手段 。 这 样 的 系统 有 一 部 
分 VMM 操作 运行 在 特权 模式 下 而 另外 一 部 分 运行 在 用 户 模式 ， 如 图 8-5d 所 示 ， 被 称 为 双 模 式 
宿主 虚拟 机 系统 ， 我 们 会 在 8. 4. 3 节 再 深入 讨论 这 种 系统 。 


8.1.5 IBM VM/370 


世界 上 第 一 个 虚拟 机 环境 是 IBM System/360 Model 40 VM (circa 1965) (Adair %#, 1966; 
Creasy 1981)。 开 发 者 的 目的 是 要 建立 一 个 分 时 共享 系统 来 将 当时 新 颖 的 虚拟 存储 器 概念 扩展 到 
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计算 机 的 其 他 部 件 。 在 讨论 了 所 有 方案 后 ， 开 发 小 组 决定 将 整个 System/360 的 体系 结构 接口 
( 即 ISA) 而 不 是 只 将 通过 系统 库 调 用 的 用 户 级 体系 结构 接口 ( 即 ABI) 提供 给 用 户 ， 因 为 他 们 
觉得 这 是 在 System/360 体系 结构 演进 之 后 既 能 保持 兼容 性 又 能 将 用 户 彼此 隔离 的 最 好 解决 方案 。 
在 此 后 不 久 ， 当 System/370 面市 的 时 候 ， 虚 拟 机 技术 就 已 经 成 为 了 主流 。 我 们 在 本 章 余 下 部 分 
提 到 的 IBM 虚拟 机 指 的 就 是 IBM System/370 ， 它 的 很 多 原理 至 今 仍 被 BM z 系列 大 型 机 上 运行 
的 2/VM 所 采用 。 关 于 IBM 硬件 平台 上 虚拟 机 开发 的 正式 消息 发 布 在 Varian (1997) 中 ， 而 对 
虚拟 机 技术 的 调研 则 要 回溯 到 Goldberg (1974). 

VM/370 中 的 虚拟 机 监控 程序 被 称 为 控制 程序 (control program, CP), CP 设计 小 组 还 开发 
了 一 个 单 用 户 操作 系统 : 会 话 管理 系统 (conversational monitor system，CMS) ， 用 它 来 说 明 系 统 
升级 中 模块 化 带 来 的 好 处 。CP/CMS 设计 小 组 将 资源 管理 功能 和 为 用 户 提供 服务 的 功能 分 离开 
来 ， 这 个 工程 的 成 功 很 大 程度 上 归功 于 System/370 的 体系 结构 设计 ， 该 结构 使 得 虚拟 机 概念 能 
够 简单 优雅 地 实现 。 

尽管 CP 和 CMS 这 对 概念 通常 是 一 起 出 现 ， 但 其 实 它 们 可 以 单独 存在 。 实 际 上 CMS 在 CP 
出 现 前 就 已 经 在 裸 机 上 开发 出 来 了 。 而 CP 也 能 和 多 种 客户 操作 系统 兼容 ， 包 括 最 近 的 Linux, 
随 着 System/370 的 通用 性 和 重要 性 与 日 俱 增 ， 很 多 硬件 特性 被 加 进 系 统 来 减少 虚拟 化 开销 ， 一 
些 改进 技术 我 们 会 在 8. 5 节 详 细 讲 述 。 


8.2 资源 虚拟 化 一 一 处 理 器 


虚拟 化 处 理 器 的 关键 在 于 客户 机 指令 〈 包 括 系统 级 和 用 户 级 的 指令 ) 的 执行 ， 而 执行 有 两 
种 实现 方式 : 第 一 种 是 通过 仿真 (emulation), BER 2 章 中 描述 的 那样 ， 仿 真 可 以 通过 解释 执 
行 或 者 二 进 制 翻译 来 完成 。 仿 真 包括 依次 检查 每 条 客户 机 指令 ， 在 解释 执行 时 重复 进行 而 在 二 
进 制 翻译 时 只 进行 一 次 ; 然后 在 虚拟 资源 上 仿真 与 在 真实 资源 上 相同 的 实际 行为 。 当 宿主 机 的 
ISA 和 客户 机 的 ISA 不 同时 ， 仿 真是 实现 处 理 器 虚拟 化 的 唯一 手段 。 正 如 我 们 将 要 看 到 的 ， 有 时 
在 宿主 机 的 ISA 和 客户 机 的 ISA 相同 时 也 可 能 需要 类 似 的 仿真 过 程 。 例 如 ， 与 硬件 资源 交互 的 
指令 需要 以 与 真实 处 理 器 上 不 同 的 方式 运行 在 虚拟 处 理 器 上 时 就 会 发 生 这 种 情况 。 

实现 处 理 器 虚拟 化 的 第 二 种 方法 是 在 宿主 计算 机 上 使 用 直接 本 地 执行 技术 (direct native ex- 
ecution) 。 这 种 方法 只 能 在 宿主 机 的 ISA 和 客户 机 的 ISA 相同 时 使 用 ， 并 且 还 要 满足 一 些 约 东 条 
件 。 虽 然 虚 拟 机 总 是 可 以 通过 仿真 技术 来 实现 ,但 是 即使 是 使 用 像 二 进 制 翻译 等 复杂 的 技术 ,在 
这 种 机 制 虚 拟 机 上 运行 的 程序 性 能 也 无 法 和 在 硬件 上 直接 运行 时 相 媲 美 。 因 此 ， 在 宿主 机 的 ISA 
和 客户 机 的 ISA 相同 时 ， 一 个 基本 的 实现 目标 就 是 让 相当 大 部 分 的 指令 直接 在 在 本 地 硬件 平台 
上 运行 ， 这 样 一 个 虚拟 机 上 运行 程序 的 速度 就 可 以 达到 在 本 地 硬件 上 直接 运行 的 速度 ， 除 非 有 
存储 和 IO 资源 限制 等 问题 。 仿 真 剩余 指令 的 开销 依赖 于 以 下 几 个 因素 : 必须 仿真 的 指令 数 、 发 
现 这 些 指令 的 复杂 度 和 仿真 采用 的 数据 结构 和 算法 。 

接 下 来 的 三 小 节 对 成 功 构 建 VMM 所 必须 要 仿真 实现 的 指令 的 特征 进行 讲述 ， 各 种 特殊 指令 
的 仿真 实现 依赖 于 各 个 ISA 的 不 同体 系 特征 。 我 们 可 以 看 到 在 一 个 行为 良好 、 可 高 效 虚拟 化 的 
ISA 下 ， 当 一 条 指令 需要 被 仿真 时 ， 就 会 自然 触发 一 个 陷阱 (trap) ， 而 陷阱 处 理 代码 就 会 跳 转 
到 适当 的 解释 程序 ， 解释 这 条 指令 ， 然 后 将 控制 权 返 回 原 程序 。 而 在 一 个 行为 不 是 很 良好 的 ISA 
下 ， 由 于 分 离 这 些 需 要 仿真 的 指令 难度 很 大 ， 因 此 会 导致 很 多 其 他 指令 的 仿真 执行 。 在 8.2.4 节 
中 我 们 将 讨论 如 何 发 现 这 些 指 令 的 问题 。 在 这 些 情 况 下 我 们 可 以 采用 类 似 第 2 章 中 提 到 的 成 组 翻 
译 的 技术 来 提高 仿真 的 性 能 。 
8.2.1 ISA 的 虚拟 化 条 件 


Goldberg 在 1972 年 发 表 相 关 的 博士 论文 后 ， 他 和 Popek 在 1974 年 的 一 篇 经 典 论文 中 正式 提 
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th T ISA 能 有 效 支 持 虚 拟 机 的 充分 条 件 。 我 们 将 在 本 小 节 里 总 结 其 中 的 主要 见解 ， 以 更 好 地 理 
解 系统 虚拟 机 及 其 构造 。 
在 第 8. 1.4 节 ， 我们 讲述 了 本 地 虚拟 机 系统 和 宿主 虚拟 机 系统 。 在 纯 宿 主 虚 拟 机 系统 里 存在 
着 固有 的 效率 问题 ， 我 们 会 在 8. 4. 3 节 中 看 到 ， 原 因 在 于 VMM 需要 严重 依赖 于 宿主 操作 系统 提 
供 的 服务 ， 因 此 我 们 的 讨论 限制 在 本 地 虚拟 机 系统 的 范围 内 。 在 本 地 虚拟 机 系统 内 ，VMM 运行 
在 系统 模式 下 ， 而 其 他 软件 运行 在 用 户 模式 下 。 请 注意 其 他 软件 包括 一 些 本 应 运行 在 系统 模式 
下 的 软件 ， 比 如 客户 操作 系统 就 是 这 样 一 个 例子 。VMM 记录 所 有 客户 虚拟 机 上 操作 的 需要 (Æ 
H) 模式 , 但 执行 来 自 于 虚拟 机 的 指令 时 ， 不管 是 来 自 应 用 软件 还 是 操作 系统 ， 都 将 实际 硬件 
的 运行 模式 设置 为 用 户 模式 。 
Popek 和 Goldberg 的 原始 分 析 是 针对 第 三 代 机 器 的 ， 比 如 IBM System/370，Honeywell 6000 
和 Digital PDP - 10， 但 它 依然 适用 于 当代 的 机 器 (有 人 认为 从 ISA 来 看 ， 我 们 依然 处 在 第 三 
代 !)。 该 分 析 的 前 提 如 下 : (a) 硬件 包括 一 个 处 理 器 和 可 以 统一 编 址 的 存储 器 ; (b) 处 理 器 能 
工作 在 两 个 不 同 的 工作 模式 中 的 一 个 中 : 用 户 模式 或 系统 模式 ; (c) 指令 集 的 一 个 子 集 只 能 在 
系统 模式 下 有 效 ; (d) 寻 址 是 相对 于 一 个 重 定位 寄存 器 来 实现 〈 如 将 一 个 固定 值 加 上 虚 地 址 来 
获得 实际 物理 地 址 ) 。 这 种 分 析 能 够 扩展 到 多 于 两 种 运行 模式 和 更 复杂 的 存储 器 结构 ， 但 基本 结 
果 是 不 会 改变 的 。 输 入 输出 没有 考虑 ， 但 这 种 方法 和 分 析 也 能 直接 扩展 到 IO LK, 
虚拟 化 的 机 器 采用 一 个 4 元 组 S= <E，M，P，R > 来 建 模 ， 其 中 卫 表 示 可 用 的 存储 单元 ， 
M 表示 操作 的 运行 模式 ，P 表示 程序 计数 器 ，R 表示 存储 器 重 定位 边界 寄存 器 。 假 设 机 器 的 存储 
器 位 于 存储 器 重 定位 边界 寄存 器 指定 的 连续 物理 存储 器 上 。 如 和 名称 所 示 ， 存 储 器 重 定位 边界 寄 
存 器 包括 一 对 值 ， 提 供 了 物理 位 置 和 虚拟 存储 空间 大 小 这 两 方面 的 信息 。 扩 展 到 页 式 或 者 段 式 
管理 的 虚拟 存储 器 也 是 很 直接 的 。 当 一 个 程序 要 访问 的 地 址 超出 了 R 标示 的 边界 ， 就 会 发 生 一 
个 访 存 陷阱 ， 而 陷阱 处 理 代 码 则 将 代表 当前 机 器 状态 的 M、P 和 R 的 值 来 保存 到 地 址 0 上 ， 又 将 
另 一 进程 地 址 0 上 的 值 复制 到 M, P 和 R 上 ,本 质 上 实现 了 上 下 文 切换 的 效果 。 
一 条 特权 指令 被 定义 为 在 用 户 模 式 下 执行 会 触发 陷阱 而 在 系统 模式 下 执行 不 会 触发 陷阱 。 
仅仅 定义 指令 在 两 种 不 同 模 式 下 执行 行为 不 同 是 不 够 的 ， 从 定义 来 看 如 果 特 权 指 令 运 行 在 用 户 
模式 下 ， 则 它 就 必须 触发 陷阱 操作 。 当 然 我 们 应 该 注意 到 以 上 的 严格 定义 是 针对 本 次 具体 分 析 ， 
所 以 当 在 描述 其 他 特定 的 ISA 时 ,特权 指令 定义 可 能 有 所 不 同 。 以 下 是 2 个 特权 指令 的 例子 : 
e Load PSW (LPSW, IBM System/370) : 如 果 处 理 器 处 于 系统 模式 下 ， 这 条 指令 用 存储 器 中 
的 一 个 双 字 加 载 处 理 器 状态 字 (PSW); 如 果 处 理 器 没有 处 于 系统 模式 ， 机 器 就 会 产生 陷 
BE. PSW 的 位 包含 了 决定 CPU 状态 的 信息 ， 其 中 的 P 位 就 决定 了 CPU 是 处 于 系统 模式 还 
是 用 户 模式 ， 而 其 他 部 分 则 给 出 了 指令 的 地 址 (或 程序 计数 器 ) 信息 。 如 果 这 条 指令 能 够 
在 用 户 模 式 下 运行 ， 那 一 个 恶意 程序 就 可 以 将 自己 设 为 系统 模式 并 取得 对 系统 的 控制 权 。 

e Set CPU Timer (SPT, IBM System/370): 如 果 CPU 处 于 系统 模式 下 ， 这 条 指令 用 存储 
器 某 个 位 置 的 内 容 来 设置 CPU 间隔 计数 器 ; 如 果 处 理 器 没有 处 于 系统 模式 ， 机 器 就 会 产 
生 陷 阱 。 与 上 条 指令 同 理 ， 如 果 这 种 指令 能 够 在 用 户 模式 下 运行 ， 那 一 个 应 用 程序 就 可 
以 在 被 换 出 前 重 设 系统 分 配给 自己 的 运行 时 间 。 

像 以 前 提 到 的 那样 ， 在 一 个 虚拟 机 环境 里 ， 在 客户 虚拟 机 上 运行 的 操作 系统 不 能 在 影响 其 
他 虚拟 机 和 其 他 虚拟 机 上 运行 的 应 用 程序 性 能 的 情况 下 改变 硬件 资源 。 因 此 ， 即 使 是 虚拟 机 上 


的 操作 系统 也 只 能 运行 在 不 能 对 PSW 和 CPU 间隔 计数 器 等 系统 资源 直接 修改 的 模式 下 。 概 括 起 


来 说 ， 就 是 所 有 客户 操作 系统 软件 都 只 能 运行 在 用 户 模式 下 。 
为 了 明确 与 硬件 交互 的 指令 ， 我 们 定义 了 两 类 特殊 指令 : 控制 敏感 指令 (control-sensitive ) 


ŽA Æ RHL 227 





和 行为 敏感 指令 (behavior-sensitive) 。 控 制 敏感 指令 是 那些 试图 改变 系统 资源 配置 的 指令 ， 比 如 
分 配给 程序 的 物理 存储 器 和 系统 运行 模式 (如果 LO 设备 也 被 包括 在 模型 中 ， 那 VO 设备 也 被 
认为 是 一 种 物理 资源 ) 。 行 为 敏感 指令 的 行为 或 运行 结果 依赖 于 系统 资源 配置 ， 在 本 模型 中 ， 这 
些 指令 依赖 于 存储 器 重 定 址 边界 寄存 器 的 值 或 者 操作 模式 。 假 如 一 条 指令 既 不 属于 控制 敏感 指 
令 ， 又 不 属于 行为 敏感 指令 ， 那 么 它 就 是 一 条 无 害 指令 (innocuous), WE 8-6 所 示 。 


pe — 
en M Bi 





yes EEB an i 无 害 
Lv J RC 敏感 
nae NZ an 
tre es b) = ere 
( 仅 管 不 必要 完全 重合 ) 
图 8-6 指令 类 型 


前 面 给 出 的 LPSW 和 SPT 指令 属于 控制 敏感 类 指令 ， 使 用 它们 能 够 让 操作 系统 改变 系统 的 
某 些 基本 资源 ， 如 操作 模式 和 CPU 计时 器 。 下 面 让 我 们 来 看 一 下 行为 敏感 指令 的 例子 。 

èe Load Real Address (LRA, System/370): 这 条 指令 取 一 个 虚 地 址 ， 翻 译 以 后 将 相应 的 实 

地 址 存 人 一 个 通用 寄存 器 ， 这 条 指令 的 行为 〈 存 人 寄存 器 中 的 结果 值 ) 依赖 于 实际 存储 
器 资源 的 状态 (映射 )。 

e POP Stack into Flags Register (POPF, Intel IA-32 ) : rage ser enya 并 
写 入 标志 寄存 器 。 在 这 些 标志 位 中 存在 着 一 个 中 断 允 许 位 ， 它 只 能 在 特权 模式 下 修改 。 
在 用 户 模 式 下 这 条 指令 写 人 除 中 断 允 许 位 外 的 其 他 标志 位 ， Sales Gia aie enya 
令 来 执行 。 这 条 指令 的 执行 也 是 依赖 于 操作 模式 的 。 

VMM 的 功能 分 为 三 个 部 分 : 调度 器 、 分 配器 和 一 组 解释 程序 (interpreter routines) ， 如 图 
8-7 所 示 。 调 度 器 是 VMM 中 最 高 级 别 的 控制 模块 ， 它 决定 下 一 调用 的 模块 ， 它 本 身 是 由 硬件 陷 
阱 的 中 断 处 理 程序 触发 的 。 分 配器 决定 如 何 对 系统 资源 进行 分 配 ， 如 怎样 分 配 存储 资源 而 不 会 
冲突 。 当 需要 改变 与 虚拟 机 相关 的 资源 时 ， 它 由 调度 器 调用 。 

指令 陷 娃 发 生 






这 些 指 令 需 改变 
机 器 资源 分 配 , 
如 读 人 重 分 配 
边界 寄存 器 


这 些 指 令 不 改变 机 器 资源 
分 配 ,但 需 进 入 特权 资源 ， 
MIN, OUT. Write TLB 


图 8-7 虚拟 机 监控 程序 (VMM) 的 组 件 
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如 我 们 将 要 看 到 的 那样 ， 在 一 个 构造 良好 的 VMM 里 ， 任 何 一 条 试图 改变 资源 分 配 的 指令 或 
任何 一 条 行为 受 资源 分 配 影响 的 指令 都 会 触发 对 VMM 调度 器 的 陷阱 。 试 图 改变 资源 分 配 的 陷阱 
指令 将 会 由 调度 器 传 给 分 配器 ， 而 剩余 的 其 他 陷 轩 指令 调度 器 则 传 给 解释 程序 。 一 个 解释 程序 
对 应 于 一 条 特权 指令 ， 仿 真 在 虚拟 资源 上 操作 时 该 指令 的 运行 效果 。 在 解释 程序 结束 之 后 ， 控 制 
权 则 转 回 到 客户 虚拟 机 上 引起 陷阱 操作 指令 的 下 一 条 指令 。 

根据 Popek 和 Goldberg 的 定义 ， 一 个 真正 的 VMM 必须 满足 3 个 条 件 : 高 效 性 、 资 源 控制 
和 等 效 性 。 高 效 性 是 指 所 有 的 无 害 指令 都 必须 在 本 地 硬件 上 直接 运行 而 不 需要 VMM 的 干预 
或 仿真 ;资源 控制 是 指 任何 客户 软件 不 能 直接 改变 它 可 用 的 任何 系统 资源 分 配 ， 如 物理 存储 
器 ， 客 户 软 件 试图 进行 这 种 操作 时 必须 由 调度 器 来 完成 相关 请 求 ; 等 效 性 是 指 除 了 一 些 例外 ， 
虚拟 机 上 任何 程序 的 执行 行为 必须 和 它 在 本 地 硬件 上 直接 执行 时 相同 。 人 允许 的 例外 包括 : (1) 
仿真 (如 解释 ) 某 些 指令 时 性 能 会 降低 ，(2) 由 于 虚拟 机 间 共 享 资源 导致 对 可 用 资源 数 的 限 
制 〈 如 磁盘 空间 ) ，(3) 由 于 改变 了 时 序 关 系 可 能 会 有 性 能 上 的 差异 ， 如 IO 和 CPU 之 间 的 
关系 。 

读者 应 该 注意 到 这 里 对 VMM 的 规定 和 VMM 的 一 般 定 义 以 及 本 书 中 其 他 地 方 对 VMM 的 定 
义 是 不 一 样 的 。 直 观 上 很 清楚 ， 资 源 控制 和 等 效 性 是 VMM 必须 具备 的 ， 而 且 总 可 以 采用 仿真 技 
术 来 构造 一 个 有 这 些 属性 的 虚拟 机 ， 尽 管 效 率 不 高 。 实 际 上 ， 我们 (以 及 其 他 人 ) 在 定义 VMM 
时 一 般 只 要 求 满足 资源 控制 和 等 效 性 ， 而 Popek 和 Goldberg 对 VMM 的 定义 则 要 求 必须 满足 高 效 
性 才 是 一 个 真正 的 VMM。 高 效 性 严重 依赖 于 下 面 定理 1 给 出 的 条 件 。 

除了 在 Popek 和 Goldberg 定理 中 ， 我 们 在 本 书 中 对 VMM 采取 了 另外 一 种 定义 ， 即 VMM 仅 
满足 资源 控制 和 等 效 性 ， 而 高 效 VMM (efficient VMM) 是 还 同时 满足 高 效 性 的 VMM。 以 下 则 
是 关于 (高 效 ) VMM 的 关键 定理 。 

定理 1: 在 任何 传统 第 三 代 计 算 机 中 ， 如 果 敏 感 指令 集 是 特权 指令 集 的 子 集 则 能 够 构 
造 VMM, 

这 条 看 起 来 简单 的 法 则 其 实 包含 着 很 重要 的 含义 : 在 用 户 模式 下 ， 如 果 所 有 妨碍 VMM 正常 
高 效 工作 的 指令 (RUBIES) 都 会 触发 陷阱 操作 ， 就 能 构造 出 一 个 真正 的 高 效 虚 拟 机 。 所 有 非 
特权 指令 都 可 以 在 本 地 主机 平台 上 直接 运行 而 不 需要 仿真 。 所 有 的 敏感 指令 ， 如 试图 改变 系统 
资源 分 配 或 依赖 于 系统 资源 配置 的 指令 ， 都 会 触发 陷阱 并 将 控制 权 转 回 给 VMM。 随 后 VMM 会 
分 析 并 确认 发 射 该 敏感 指令 的 虚拟 机 所 需要 的 行为 ， 并 在 虚拟 机 系统 作为 一 个 整体 的 环境 中 重 
新 形成 该 请 求 ， 图 8-8 描述 了 该 定理 所 包含 的 充分 条 件 。 
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a) 不 满足 条 件 b) 满足 条 件 高 效 虚 拟 化 

图 8-8 ”定理 1 的 示意 。 在 a 中 敏感 指令 不 是 特权 指令 的 子 集 ， 所 以 可 能 
不 能 高 效 虚拟 化 ， 而 b 的 情况 则 满足 了 定理 1 的 条 件 


VMM 会 依照 虚拟 系统 资源 的 当前 状况 和 虚拟 机 的 当前 状态 来 解释 一 条 敏感 指令 。 以 前 面 描 
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述 的 敏感 指令 LPSW 和 SPT 为 例 ， 这 些 System/370 的 指令 同样 是 特权 指令 ， 因 此 也 满足 定理 1 
中 的 条 件 。 我 们 来 考虑 一 条 具体 的 LPSW 指令 ， 如 果 它 的 实际 效果 是 从 一 个 特权 状态 转换 到 另 
一 个 特权 状态 ， 在 转换 过 程 中 特权 集 不 变 。VMM 里 的 LPSW 解释 程序 通过 检验 比较 读 人 的 存储 
器 内 容 和 为 该 虚拟 机 维护 的 PSW 值 ， 以 确定 这 种 转换 是 无 害 的 ， 随 后 执行 自己 的 LPSW 指令 修 
改 硬件 PSW 的 内 容 并 将 控制 权 转 换 。VMM 自己 的 LPSW 指令 执行 在 系统 模式 下 ， 所 以 不 会 触 
发 陷阱 ， 如 图 8-9 所 示 。 



































虚拟 机 中 的 客户 操作 系统 代码 [MM 人 RR 
(HRB) { 特权 模式 ) | 
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下 一 条 指令 (LPSW HAS) | LPSW 程序 : | 
9 | 转换 到 特权 模式 
检查 VM 中 的 特权 等 级 
模拟 指令 
计算 目标 地 址 
为 用 户 保存 模式 
跳 转 到 目标 地 址 | 











图 8-9 客户 操作 系统 中 的 特权 指令 处 理 过 程 。 因 为 客户 操作 系统 运行 于 用 户 模式 ， 特 权 指令 引发 一 个 
陷阱 操作 ， 然 后 陷阱 操作 到 达 VMM 的 调度 器 ， 并 被 引导 到 对 应 指令 的 解释 程序 

从 另 一 方面 来 说 ， 假 如 这 条 LSPW 指令 是 由 运行 在 虚拟 机 上 的 用 户 应 用 程序 执行 的 ， 那 么 
陷阱 处 理 代码 则 会 产生 一 个 虚拟 陷阱 并 传 给 虚拟 机 ， 虚 拟 机 上 的 客户 操作 系统 就 会 采取 与 本 地 
机 在 用 户 模式 下 运行 特权 指令 时 一 样 的 方式 处 理 这 个 陷阱 操作 。 

当 在 解释 一 条 SPT 指令 时 ，VMM 检查 将 要 写 入 CPU 计时 器 的 存储 器 值 ， 如 果 该 值 ( 例 如 ,，t) 
小 于 分 配给 该 虚拟 机 的 时 间 片 的 剩余 部 分 (T) (t<T) ,就 将 t 写 人 计时 器 ; 否则 ， 将 该 虚拟 机 
的 时 间 片 的 剩余 部 分 (T) 写 入 计时 器 ， 同 时 将 差 值 (t-T) 记 入 时 间 间 隔 记 录 表 以 便 该 客户 虚 
拟 机 下 次 被 激活 时 将 该 值 恢复 。 以 这 样 一 种 方式 ，VMM 确保 了 对 系统 的 控制 权 ， 即 使 出 现 了 有 
些 虚 拟 机 想 独占 系统 资源 的 情况 。 当 客户 操作 系统 要 读 计 时 器 值 时 ，VMM 会 重新 构造 正确 的 虚 
拟 计 时 器 值 并 将 其 返回 。 

定理 1 中 有 一 些 考 虑 到 结构 方面 的 简单 假设 ,还 有 一 些 像 WO 和 异步 中 断 等 因素 没有 考虑 ， 
但 它 给 出 了 一 个 能 有 效 检测 ISA 以 确定 是 否 能 实现 一 个 高 效 VMM 的 简单 方法 , 它 也 为 计算 机 系 
统 结构 设计 师 给 出 了 一 个 能 高 效 虚拟 化 的 新 的 ISA 的 设计 原则 。 


8.2.2 递归 虚拟 化 


有 时 需要 将 一 个 虚拟 机 系统 当 作 另 一 个 虚拟 机 系统 的 一 个 虚拟 机 来 运行 ， 这 意味 着 VMM 自 
身 运行 在 用 户 模式 下 ， 而 由 它 的 一 个 运行 在 特权 模式 下 的 拷贝 来 控制 自己 。 这 种 将 虚拟 机 系统 
在 它 自身 的 一 个 拷贝 上 运行 的 概念 称 为 递归 虚拟 化 ， 如 图 8-10 所 示 。 
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图 8-10 递归 虚拟 化 


在 构建 一 个 高 效 的 递归 虚拟 系统 时 有 两 方面 的 限制 。 第 一 , 假如 VMM 自身 存在 着 时 间 依 
赖 ， 那 么 当 它 在 另 一 个 虚拟 机 的 用 户 模 式 下 运行 时 性 能 就 会 有 所 下 降 。 实 际 上 ， 程 序 里 的 时 间 依 
赖 最 终 会 导致 违反 Popek # Goldberg 所 提出 的 一 个 条 件 一 一 等 效 性 ， 所 以 构建 一 个 高 效 的 递归 虚 
拟 系统 的 强烈 要 求 就 是 VMM 自身 不 存在 时 间 依 赖 。 

第 二 个 限制 就 是 每 个 VMM 层 会 耗 尽 自己 的 资源 ， 尤 其 是 用 于 保存 系统 中 运行 的 不 同 虚 拟 机 
状态 的 系统 存储 资源 。 假 如 递归 虚拟 化 被 重复 执行 ， 那 么 这 些 资 源 就 会 不 断 减 少 ， 最 后 只 有 很 少 
一 部 分 剩 下 来 分 配给 虚拟 机 使 用 。 因 此 ， 随 着 递归 虚拟 化 层次 的 增多 系统 中 能 等 效 运行 的 应 用 
程序 数量 会 减少 。 

但 是 在 实际 中 以 上 两 点 都 不 是 问题 。 需 要 递归 虚拟 化 的 层次 很 少 会 超过 2， 在 这 种 层次 下 ， 
系统 开销 仍然 是 可 控 的 ,而且 用 户 也 能 接受 由 于 递归 虚拟 化 而 带 来 的 性 能 损失 。 

Popek 和 Goldberg 在 定理 2 里 总 结 了 递归 虚拟 化 的 条 件 。 

定理 2 : 在 传统 第 三 代 计 算 机 中 ， 要 实现 递归 虚拟 化 必须 满足 a 它 是 可 虚拟 化 的 ，b 能 够 为 
它 构 造 一 个 不 存在 时 间 依 赖 的 VMM。 


8.2.3 处 理 问题 指令 


我 们 注意 到 前 面 提 到 的 IA-32 ISA 中 的 POPF 指令 是 敏感 指令 而 又 不 属于 特权 指令 一 一 它 不 
会 在 用 户 模式 下 触发 陷阱 ， 因 此 违反 了 定理 1 的 可 虚拟 化 条 件 。 在 Intel 的 IA-32 中 还 有 好 几 条 这 
样 的 指令 (Robin 和 Irvine 2000) 。 实 际 上 ， 按 照 Popek 和 Goldberg 的 理论 能 够 (高 效 ) 虚拟 化 
的 ISA 是 很 少 的 ， 但 是 ISA 不 能 高 效 虚拟 化 并 不 意味 着 我 们 什么 也 做 不 了 ， 只 是 我 们 需要 一 个 
额外 的 步骤 来 构建 一 个 虚拟 机 系统 (可 能 会 有 些 效率 损失 ) 。 

POPF 指令 是 一 条 问题 指令 ， 因 为 从 定理 1 的 角度 它 限制 了 高 效 VMM 的 构建 。 为 了 方便 
起 见 ， 我 们 将 属于 敏感 指令 而 又 不 属于 特权 指令 的 指令 称 为 关键 指令 (critical instrmuction)。 在 
所 有 客户 软件 指令 逐条 解释 的 情况 下 VMM 是 可 能 截获 POPF 和 其 他 关键 指令 的 。 采 用 解释 的 
方法 显然 会 导致 低 效 (不 仅 在 Popek 和 Goldberg 的 正式 阐述 中 ,实际 情况 也 是 如 此 )， 但 幸运 
的 是 使 用 第 2 章 和 3 章 讨论 的 那些 相关 技术 可 以 明显 地 减少 性 能 损失 。 比 如 ，VMM 在 运行 客 
户 代码 串 之 前 能 先 将 其 扫描 一 遍 ， 就 像 二 进 制 翻译 时 一 样 ， 在 这 个 过 程 中 找到 所 有 的 关键 指 
令 ， 并 用 一 个 陷阱 或 者 跳 转 到 VMM 的 指令 来 蔡 换 它们 ， 如 图 8-11 所 示 。 这 个 替换 过 程 被 称 
为 修补 (patching， 见 4.7. 1 节 )。 只 有 在 客户 虚拟 机 上 运行 的 代码 才 需 要 扫描 ， 因 为 VMM 代 
码 运 行 在 特权 状态 ， 不 需 修改 就 能 正确 运行 。 扫 描 和 修补 关键 指令 问题 的 具体 细节 我 们 会 在 
下 一 小 节 详 细 描 述 。 
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对 发 现 的 关键 指 
令 执行 代码 调度 


扫描 器 和 
= i 一 


原 程序 调度 后 的 程序 
图 8-11 在 混合 虚拟 机 系统 中 扫描 和 修补 代码 


在 一 个 严格 的 高 效 可 虚拟 化 机 器 中 (由 Popek 和 Goldberg €X), ， 所 有 的 非特 权 指 令 都 必须 
在 本 地 运行 。 我 们 称 存在 非特 权 指令 必须 被 仿真 执行 的 虚拟 机 系统 为 混合 虚拟 机 系统 。 而 扫描 
和 修补 是 在 混合 虚拟 机 系统 中 尽 可 能 多 地 本 地 执行 非特 权 指 令 的 实用 策略 ， 只 包含 极 少 关键 指 
令 的 客户 虚拟 机 软件 不 会 有 很 明显 的 性 能 损失 。 


8.2.4 ”关键 指令 的 修补 


正如 以 前 提 到 的 ， 关 键 指 令 发 现 的 问题 和 第 2 章 中 讨论 的 动态 二 进 制 翻译 的 一 般 问题 有 很 大 
的 相似 性 ， 它 们 的 基本 思想 都 是 定位 将 要 运行 的 指令 并 对 其 进行 转换 。 而 它们 的 主要 区 别 在 于 
在 二 进 制 翻译 时 ， 目 标 代 码 和 实时 运行 代码 都 处 于 用 户 模式 下 ， 所 以 它们 之 间 的 切换 只 需要 一 
个 跳 转 操作 ; 而 在 虚拟 机 环境 下 ， 两 者 间 必 须 进 行 运行 模式 转换 ， 这 就 意味 着 到 运行 代码 的 跳 转 
必须 由 一 个 VMM 的 系统 调用 (BABE) KRE. 

发 现 关键 指令 的 一 种 方法 是 VMM 在 每 个 客户 基本 块 的 首部 取得 控制 权 ， 然后 顺序 扫描 直到 
块 的 尾部 ， 对 于 扫描 中 发 现 的 关键 指令 则 用 一 个 到 VMM 的 陷阱 (系统 调用 ) KER, ME 
VMM 辅助 表 里 保存 该 条 关键 指令 和 它 的 原始 地 址 。 而 另 一 个 到 VMM 的 陷阱 操作 则 放置 在 块 的 
尾部 使 得 VMM 在 块 运行 结束 后 重新 获得 控制 权 ， 以 便 对 下 一 个 执行 块 进行 扫描 和 修补 。 如 果 下 
一 执行 块 已 经 被 修补 过 了 ， 那 么 VMM 就 直接 跳 转 至 该 块 ， 这 样 就 保证 了 每 一 个 即将 执行 的 基本 
块 都 被 首先 修补 。 

为 了 减少 开销 ， 在 一 个 已 经 扫描 过 并 且 所 有 后 续 块 都 已 完成 修补 的 基本 块 尾 部 的 陷阱 操作 可 以 
用 原来 的 分 支 或 者 跳 转 指令 替换 ， 这 和 第 2 章 里 的 代码 缓存 基本 块 链 技 术 相 似 。 例 如 ， 一 个 原本 以 
条 件 分 支 指令 结束 的 基本 块 尾部 已 经 被 陷阱 操作 替换 ， 那 么 位 于 分 支 成 功 地址 和 分 支 失败 地 址 的 基 
本 块 都 在 第 一 次 过 到 这 个 陷阱 时 进行 扫描 ， 在 这 两 个 后 续 块 的 关键 指令 都 被 修补 后 就 可 以 把 尾部 的 
陷阱 操作 用 原来 的 条 件 分 支 指令 替换 。 这 种 技术 对 于 直接 分 支 指令 是 相当 简单 的 ， 因 为 只 需 将 偏 移 
地 址 加 上 分 支 指令 的 地 址 就 可 以 确定 分 支 目标 地 址 ; 但 是 对 于 间接 跳 转 或 分 支 指令 ， 目 标 地 址 保存 
在 寄存 器 里 ， 陷 阱 就 不 能 被 替换 ， 因 为 所 有 可 能 的 目标 地 址 是 很 难 预 测 的 。 
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为 了 进一步 减少 开销 ，VMM 可 以 不 是 每 次 只 检查 一 个 基本 块 ， 而 是 一 次 扫描 所 有 分 支 ， 只 
要 其 目标 地 址 可 以 计算 出 。 因 此 对 于 一 个 条 件 分 支 而 言 ， 不管 是 成 功 分 支 还 是 失败 分 支 都 在 初 
始 扫描 时 被 同时 扫描 ， 重 复 执行 这 个 过 程 直到 遇 到 一 条 无 法 确定 所 有 转移 目标 的 控制 转移 指令 。 
为 了 避免 对 扫描 后 不 使 用 路 径 的 内 存 分 页 ， 分 页 操作 被 限制 在 已 经 存在 于 物理 存储 器 上 的 代码 
页 范围 内 。 

请 注意 在 客户 应 用 程序 (在 虚拟 机 的 用 户 模式 下 ) 里 的 关键 指令 只 有 当 它 在 用 户 模式 下 执 

会 引起 某 些 操作 的 时 候 才 需要 被 修补 ， 比 如 一 条 关键 指令 在 用 户 模式 下 只 相当 于 一 条 空 操作 
(no-op), TEELAERSWA EW SALINE AERP MLSR FATE, MALWARE ILD AANA 
作 ， 因 此 在 虚拟 用 户 模式 下 可 以 减少 一 些 系统 陷阱 开销 。 但 是 只 要 ISA 中 存在 一 条 关键 指令 ， 而 
它 又 在 用 户 模式 下 对 某 些 资源 进行 了 读 或 者 写 操作 ， 那 么 指令 就 必须 被 仿真 并 且 对 其 进行 扫描 
和 修补 的 开销 必 不 可 少 。 总 之 ， 对 关键 代码 的 扫描 和 修补 过 程 与 底层 ISA 密切 相关 ， 除 了 本 节 描 
述 的 以 外 还 有 很 大 的 工程 优化 空间 。 


8.2.5 高 速 缓存 仿真 代码 


在 需要 解释 执行 的 敏感 指令 出 现 频率 相当 高 时 VMM 的 解释 开销 就 会 成 为 一 个 问题 ， 一 个 解 
决 方法 就 是 将 第 一 次 解释 时 执行 过 的 代码 进行 缓存 ， 避 免 在 以 后 再 使 用 该 指令 时 的 额外 解释 开 
销 。 这 和 第 3 章 里 进程 虚拟 机 中 讨论 过 的 代码 缓存 技术 是 相似 的 。 

理想 的 代码 缓存 应 该 作用 在 包围 敏感 指令 的 一 个 指令 块 上 ， 因 为 大 的 块 更 容易 优化 。 与 图 
8-11 相 比 ， 可 以 在 先 于 敏感 指令 的 一 条 指令 前 加 入 一 个 系统 调用 陷阱 。 如 图 8-12 所 示 ， 陷 阱 操 
作 将 系统 控制 权 转移 至 VMM，VMM 用 陷阱 指令 的 地 址 在 表 中 查找 定位 已 缓存 的 仿真 代码 。 该 
缓存 代码 仿真 了 原始 代码 整个 块 的 执行 ,包括 关键 指令 ， 所 以 它 特定 于 陷阱 指令 的 地 址 。 当 
VMM 将 控制 权 交 还 给 虚拟 机 时 ， 它 将 紧 接 该 仿真 指令 块 后 的 指令 地 址 写 人 PC， 而 不 是 陷阱 指 
令 后 的 指令 地 址 。 


在 code cache f ， 
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两 条 关键 指令 
组 合 为 一 个 块 调度 后 的 程序 : VMM 


图 8-12 ”提高 仿真 关键 指令 性 能 的 代码 缓存 技术 
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简单 的 解释 执行 只 需要 一 份 代码 拷贝 来 仿真 特定 类 型 指令 所 有 实例 的 执行 ， 而 缓存 技术 与 
此 不 同 ， 应 用 程序 中 每 个 关键 指令 的 运行 实例 都 要 与 一 特定 的 缓存 代码 块 相 联系 。 这 样 做 的 优 
点 在 于 缓存 代码 与 具体 实例 是 特定 相关 的 ， 所 以 能 够 对 其 进行 优化 并 明显 减少 开销 。 

与 进程 虚拟 机 相 比较 ， 这 种 代码 缓存 的 管理 更 为 简单 ， 因 为 缓存 里 的 代码 都 在 陷阱 发 生 后 
运行 ， 此 时 机 器 已 在 系统 模式 下 运行 。 用 户 代码 永远 不 能 破坏 或 读 取代 码 缓存 中 的 内 容 ， 这 样 就 
将 代码 缓存 保护 起 来 。 而 另 一 方面 ， 那 些 自修 改 的 代码 仍然 是 一 个 问题 ， 需 要 一 种 机 制 来 截取 其 
对 原始 代码 的 修改 ， 这 种 修改 会 造成 代码 缓存 的 部 分 被 强制 失效 。 


8.2.6 普通 指令 集 的 高 效 虚拟 化 


System/370 结构 提供 了 两 种 操作 模式 用户 模式 和 特权 模式 (我 们 也 称 其 为 系统 模式 )。 操 
作 系 统 必须 运行 在 特权 模式 下 。 在 指令 集中 有 一 部 分 特权 指令 ， 当 处 理 器 运行 在 特权 模式 下 时 
它们 执行 特定 的 操作 ， 通 常用 它们 来 管理 处 理 器 中 的 保护 资源 。 为 了 防止 无 意 或 恶意 对 这 些 资 
源 的 修改 ， 在 用 户 模 式 下 运行 特权 指令 将 触发 陷阱 操作 。 

System/370 的 VMM ( 称 为 控制 程序 ，CP) 必须 运行 在 特权 模式 以 便 在 不 同时 间 为 各 个 虚 
拟 机 分 配 资 源 。 虚 拟 机 在 特权 模式 下 被 创建 ， 但 运行 在 用 户 模式 下 ， 这 样 就 保证 了 各 个 虚拟 机 之 
间 以 及 虚拟 机 与 VMM 之 间 的 有 效 隔离 。 

按照 Popek 和 Goldberg 的 理论 ，System/370 中 的 所 有 敏感 指令 都 是 特权 指令 ，VM/370 ÆR 
用 直接 本 地 运行 的 虚拟 机 的 一 个 实例 。 
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特权 指令 直接 运行 


a) 标准 系统 b) 虚拟 机 系统 c) CP/CMS 系统 
图 8-13 ”特权 模式 指令 在 VM/370 上 执行 与 在 本 地 系统 执行 、 在 其 他 虚拟 机 系统 执行 的 比较 


如 我 们 以 前 提 到 过 的 ，System/370 VM 项 目 另 一 个 有 趣 的 方面 就 是 在 开发 CP 的 同时 开发 了 
一 个 单 用 户 操作 系统 一 一 对 话 管理 系统 (CMS), CMS 利用 CP 环境 提供 的 允许 所 有 应 用 程序 运 
行 在 “ 伪 超 级 用 户 ” 模 式 下 的 特性 ， 即 用 户 能 使 用 包括 特权 指令 在 内 的 所 有 指令 。 由 于 CMS 和 
所 有 的 应 用 都 运行 在 虚拟 机 上 ， 所 以 CP 能 有 效 防 止 它们 对 系统 真实 资源 的 随意 影响 ， 从 而 也 是 
安全 的 。 这 种 让 用 户 在 代码 中 使 用 特权 指令 的 能 力 能 让 用 户 在 许多 方面 进行 一 些 尝试 ， 比 如 添 
加 输入 /输出 设备 ， 标 准 系统 中 通常 不 允许 这 样 做 。 图 8-13 给 出 了 不 同 策略 在 不 同 层次 处 理 特权 
指令 的 比较 ，CP/CMS 系统 的 这 种 特征 在 图 8-13c 中 表示 。 

尽管 本 章 中 的 许多 概念 在 30 年 前 就 已 提出 ， 但 在 这 30 年 里 开发 的 许多 ISA 并 不 满足 定理 1 
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的 充分 条 件 ， 比 如 现在 最 流行 的 ISA——Intel 14-32, EMA 17 条 关键 指令 (Robin 和 Irvine 
2000) ， 其 可 能 的 原因 就 是 由 于 计算 机 价格 的 急剧 下 降 使 得 每 个 用 户 都 能 很 容易 地 拥有 自己 的 真 
实 机 器 ， 从 而 系统 虚拟 机 不 被 重视 。 但 是 ， 现 在 出 于 对 网 络 环境 安全 的 重要 性 和 主要 软件 包 跨 平 
台 兼 容 性 的 考虑 ， 人 们 对 系统 虚拟 机 又 重新 重视 起 来 ， 而 且 大 型 、 昂 贵 的 服务 器 系统 现在 仍然 被 
多 组 用 户 共 享 ， 因 此 许多 采用 虚拟 机 技术 的 初衷 还 是 存在 。 


8.3 资源 虚拟 化 一 一 存储 器 


在 某 些 方面 可 以 说 虚拟 机 是 较 早 的 虚拟 存储 器 概念 的 一 般 化 。 虚 拟 存储 器 将 应 用 程序 编程 
人 员 可 见 的 存储 器 逻辑 视图 和 操作 系统 管理 的 真实 存储 器 资源 区 别 开 。 附 录 A 给 出 了 有 关 该 技 
术 的 一 些 基 本 概念 和 该 技术 所 需 的 支持 结构 ， 如 页 表 等 。 这 些 硬件 支持 在 虚拟 机 系统 内 也 足以 
让 每 个 虚拟 机 拥有 并 管理 “实际 ”存储 器 ,尽管 该 “实际 ”存储 器 只 是 低层 VMM EERE 
映像 。 


8.3.1 系统 虚拟 机 环境 中 的 虚拟 存储 器 支持 


在 系统 虚拟 机 环境 里 ， 每 个 客户 虚拟 机 都 有 自己 的 一 系列 虚拟 存储 器 表 。 每 个 客户 虚拟 机 
上 的 地 址 转换 过 程 将 其 虚 地 址 空间 内 的 地 址 转换 为 实际 (real) 存储 器 地 址 ， 在 本 地 平台 上 该 实 
际 存储 器 地 址 将 直接 对 应 到 平台 上 的 物理 存储 器 地 址 ， 但 在 系统 虚拟 机 平台 上 不 是 这 样 ， 还 需 
要 将 客户 虚拟 机 的 实际 存储 器 地 址 进一步 映射 到 主机 平台 上 的 物理 存储 器 地 址 。 请 注意 这 里 的 
实际 存储 器 和 物理 存储 器 是 有 明确 区 别 的 〈 在 其 他 地 方 这 两 个 概念 通常 是 等 价 的 ) ， 物 理 存储 器 
是 硬件 存储 器 ， 而 实际 存储 器 是 客户 虚拟 机 的 物理 存储 器 映像 ， 该 映像 是 由 VMM 将 客户 机 实际 
存储 器 映射 到 物理 存储 器 时 提供 的 ， 而 正 是 这 种 实际 存储 器 到 物理 存储 器 的 映射 机 制 实现 了 系 
统 虚 拟 机 系统 的 存储 器 虚拟 化 。 

这 个 存储 结构 中 新 加 的 层次 要 求 有 新 加 的 存储 管理 机 制 来 支持 它 。 请 注意 所 有 客户 机 的 实 
际 存 储 器 容量 之 和 可 能 会 大 于 系统 实际 的 物理 存储 器 容量 ， 事 实 上 也 经 常 如 此 。 因 此 VMM 维护 
了 一 个 交换 空间 ， 它 与 每 个 客户 机 的 交换 空间 不 同 。VMM 通过 将 客户 实际 存储 页 换 人 和 换 出 
VMM 交换 空间 来 管理 物理 存储 器 。 

图 8-14 显示 了 同一 虚拟 机 系统 上 分 属 2 个 不 同 的 客户 虚拟 机 的 页 表 映 射 。 页 表 的 每 个 人 口 
将 应 用 的 一 个 虚拟 存储 器 地 址 映射 到 客户 机 的 一 个 实际 存储 器 地 址 。 为 了 将 实际 存储 器 地 址 转 
换 为 物理 存储 器 地 址 ，VMM 维护 了 一 个 实际 映射 表 来 将 实 页 映射 到 物理 页 。 在 图 中 ， 编 号 为 
500, 1000 和 3000 的 物理 页 被 分 配给 VMI 的 2 个 实 页 和 VM 的 1 个 实 页 ， 而 剩余 的 物理 页 面 既 
可 以 分 配给 其 他 的 虚拟 机 也 可 以 分 配给 VMM 自己 。 

在 目前 的 平台 上 ， 页 面 转换 是 由 页 表 和 快 表 (TLB) 一 起 来 支持 的 ， 见 附录 A3.4。 决 定 于 
不 同 的 ISA， 页 表 和 快 表 其 中 之 一 可 以 是 结构 化 的 。 如 果 页 表 是 结构 化 的 ， 那 么 它 的 结构 就 由 
ISA 所 定义 ， 并且 由 操作 系统 和 硬件 联合 维护 和 使 用 它 。 在 这 种 情况 下 ， 快 表 只 由 硬件 来 维护 和 
使 用 ， 它 对 操作 系统 来 说 是 不 可 见 的 。 当 出 现 快 表 未 命中 时 ， 硬 件 就 遍历 结构 化 页 表 来 找到 相应 
的 表 项 并 存 人 快 表 ， 如 果 该 表 项 未 映射 到 物理 存储 器 ， 就 会 发 生 页 失效 并 转 由 操作 系统 接管 。 

另 一 方面 如 果 快 表 是 结构 化 的 ,那么 它 的 结构 和 操作 它 的 特殊 指令 均 属于 ISA 的 一 部 分 ; 
而 页 表 则 是 属于 操作 系统 实现 的 一 部 分 ， 并 且 对 硬件 来 说 是 不 可 见 的 。 在 这 种 情况 下 当 出 现 快 
表示 命中 时 ,会 立即 触发 一 个 陷阱 操作 通知 操作 系统 ， 操 作 系 统 使 用 它 的 页 表 信 息 来 执行 适当 
的 动作 。 

许多 传统 的 ISA， 如 Intel IA-32 和 IBM System/370 都 采用 了 结构 化 页 表 ， 而 一 些 更 新 的 
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RISC ISA 则 使 用 结构 化 快 表 。 取 决 于 页 表 或 快 表 的 结构 化 ， 在 虚拟 机 环境 里 的 存储 器 资源 虚拟 
化 实现 机 制 有 所 不 同 。 由 于 当今 使 用 的 大 部 分 通用 系统 虚拟 机 运行 在 mtel IA-32 上 或 从 IBM Sys- 
tem/370 升级 而 来 的 IJBM z 系列 机 器 上 ， 所 以 我 们 首先 考虑 采用 结构 化 页 表 的 虚拟 化 。 更 多 关于 
TBM 虚拟 机 的 虚拟 存储 概念 可 以 在 Parmalee $A (1972) 的 论文 中 找到 。 


VM1 上 Program1 VM1 上 Program2 VM2 上 Program3 


的 虚拟 内 存 VM1 的 实际 内 存 的 虚 氢 内 存 VM2 的 实际 内 存 MERKE 





Program2 的 页 天 


VM1 的 实际 映射 表 





图 8-14 ”客户 虚拟 机 上 的 存储 映射 方式 。 虚 页 通过 各 个 虚拟 机 维护 的 页 表 映 射 到 实 页 ， 而 实 页 通过 
VMM 维护 的 页 表 ( 位 于 图 的 底部 ) 映射 到 物理 页 ， 注 意 每 个 虚拟 机 的 实际 存储 器 容量 可 
以 比 物 理 存储 器 容量 大 ， 如 VMI 的 实际 存储 器 和 它 的 虚拟 存储 器 一 样 大 
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8.3.2 虚拟 化 结构 化 页 表 


每 个 客户 虚拟 机 的 操作 系统 都 维护 自己 的 页 表 ， 这 些 页 表 反 映 了 客户 操作 系统 管理 的 虚实 
存储 器 上 映射。 与 这 种 虚实 映射 相反 ， 虚 地 址 到 物理 地 址 的 映射 则 由 VMM 通过 影像 页 表 (shadow 
page tables) Ki, VMM 为 每 个 客户 虚拟 机 维护 一 张 影像 页 表 。 图 8-15 给 出 了 图 8-14 例子 中 
的 影像 页 表 ， 硬 件 实际 使 用 这 些 表 来 转换 虚 地 址 并 更 新 快 表 。 这 些 影像 页 表 表 项 消除 了 从 虚 地 
址 到 实际 地 址 再 到 物理 地 址 映射 的 一 级 间接 查找 。 


VMM 的 影像 页 表 






VM1 上 的 Program1 
当前 为 激活 态 





VM2 上 Programs 的 影像 页 表 


图 8-15 图 8-14 内 存 映 射 所 使 用 的 影像 页 表 。 硬 件 使 用 影像 页 表 来 进行 
地 址 转换 ，VMM 管理 该 表 并 负责 设置 页 表 指针 寄存 响 


为 了 实现 这 种 方式 ， 页 表 指 针 寄存 器 被 虚拟 化 。VMM 管理 实 页 表 指 针 并 且 操 作 每 个 客户 虚 
拟 机 相对 应 的 虚拟 指针 寄存 器 。 当 VMM 要 激活 一 个 客户 虚拟 机 时 ， 它 就 更 新 页 表 指 针 来 指向 当 
前 客户 的 影像 页 表 。 假 如 一 个 客户 机 试图 访问 页 表 指 针 ， 不 管 是 读 或 写 页 表 指 针 指 令 都 会 触发 
陷阱 操作 。 该 陷阱 操作 可 能 是 由 于 读 写 指令 属于 特权 指令 而 自动 产生 的 或 者 由 修补 进程 将 读 写 
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指令 替换 为 陷阱 操作 。 假 如 客户 对 页 表 指 针 操 作 是 读 操作 ，VMM 就 返回 客户 虚 页 表 指针 的 值 ; 
而 如 果 是 写 操作 ，VMM 就 首先 更 新 该 客户 虚拟 机 的 虚 页 表 指 针 寄存 器 ， 随 后 将 真实 的 页 表 指针 
指向 相应 的 影像 页 表 。 

由 虚 页 到 物理 页 的 正确 映射 可 能 和 客户 操作 系统 所 维护 的 由 虚 页 到 实 页 的 映射 不 同 ， 因 此 
在 缺 页 处 理 时 必须 考虑 这 一 点 。 首 先 应 注意 到 如 果 客 户 操作 系统 在 它 的 虚 页 表 中 没有 某 个 只 页 
到 实 页 的 映射 表 项 ， 那么 VMM 在 影像 页 表 中 就 不 能 有 该 虚 页 到 物理 页 的 映射 表 项 ， 否 则 一 个 从 
客户 角度 应 该 引起 页 失效 的 操作 将 不 会 引起 在 虚拟 机 环境 里 的 页 失效 ， 这 就 破坏 了 虚拟 机 的 等 
效 性 (或 者 说 兼容 性 ) 。 因 此 当 一 个 页 失效 发 生 时 ， 该 页 在 客户 操作 系统 的 虚 页 表 中 可 能 已 经 也 
可 能 没有 被 映射 。 如 果 该 页 在 客户 操作 系统 中 已 经 被 映射 ， 那 缺 页 处 理 就 完全 由 VMM 处 理 。 这 
种 情况 的 发 生 就 是 由 于 VMM 将 它 访问 过 的 实 页 交换 到 自己 的 交换 空间 。 因 此 VMM 要 将 该 实 页 
取 回 到 物理 存储 器 ,更 新 实 页 映射 表 和 相应 的 影像 页 表 来 反映 新 的 映射 。 该 页 失效 不 会 通知 客 
户 操作 系统 ， 因 为 如 果 客 户 操 作 系统 在 本 地 运行 那么 该 页 失效 是 不 会 发 生 的 。 

而 如 果 该 页 在 客户 操作 系统 中 没有 被 映射， 那么 VMM 就 将 控制 权 转交 给 客户 的 陷阱 处 理 代 
码 ， 并 通知 其 发 生 了 缺 页 。 随 后 ， 客 户 操作 系统 就 会 发 出 VO 请 求 来 执行 一 个 读 页 操作 (可 能 
还 会 换 出 一 个 脏 页 )， 并 发 出 指令 来 更 新 页 表 。 这 些 请 求 都 会 被 VMM 截获 ， 可 能 由 于 它们 是 特 
权 指 令 或 者 是 由 于 保存 客户 页 表 的 内 存 区 域 被 VMM 写 保护 。 随 后 ，VMM 在 将 控制 权 返 回 客户 
虚拟 机 之 前 就 会 更 新 客户 页 表 和 其 所 关联 的 影像 页 表 。 

像 我 们 以 前 提 到 的 那样 ,实际 映射 表 包 含 了 从 每 个 虚拟 机 的 实 页 面 到 系统 的 物理 页 面 的 映 
射 。 当 采用 实际 地 址 执行 VO 操作 时 (很 多 系统 都 这 样 做 ， 特 别 是 在 分 页 时 )，VMM 就 通过 实 
际 映射 表 将 虚拟 机 提供 的 实际 地 址 转换 为 物理 地 址 。 但 IO 地 址 的 映射 还 有 些 球 手 的 地 方 ， 因为 
连续 的 实际 地 址 可 能 并 未 映射 到 连续 的 物理 地 址 。 因 此 ，VMM 需要 将 一 条 跨越 多 个 物理 页 的 
O 请 求 指令 转换 为 多 个 VO 请 求 ， 甚 中 每 一 个 请 求 都 引用 一 个 连续 的 物理 地 址 。 还 有 可 能 IO 指 
令 请 求 的 实际 地 址 已 被 VMM 从 物理 存储 器 换 出 到 VMM 交换 空间 ， 这 样 VMM 就 必须 在 VO 操 
作 开始 之 前 将 其 读 回 到 物理 存储 器 。 

多 个 虚拟 机 和 VMM 的 同时 操作 会 降低 系统 的 性 能 ， 所 以 在 实际 应 用 中 会 采取 一 些 手段 来 提 
升 虚拟 机 上 应 用 程序 的 性 能 。 例 如 System/370 CP 中 的 策略 ， 在 准备 激活 一 个 新 的 虚拟 机 时 优先 
选择 大 部 分 活动 页 都 已 映射 到 物理 页 的 虚拟 机 ; 另 一 个 例子 就 是 当 多 个 客户 机 共享 相同 的 操作 
系统 时 ， 对 操作 系统 只 读 页 采用 一 个 公共 映射 。 随 着 VM/370 的 流行 ， 更 多 的 硬件 手段 也 被 加 进 
来 使 其 运行 速度 能 和 本 地 运行 相当 ， 更 多 的 细节 我 们 将 在 8. 5 节 中 讨论 。 


8.3.3 虚拟 化 结构 化 快 表 


当 ISA 提供 了 软件 管理 的 快 表 时 ，VMM 就 必须 虚拟 化 快 表 。 为 了 虚拟 化 快 表 ，VMM 为 每 
个 客户 快 表 内 容 维护 一 个 复制 并 且 管 理 真 实 的 快 表 。 任 何 改变 结构 化 快 表 的 指令 都 是 敏感 指令 ， 
其 请 求 都 会 被 VMM 截获 ， 从 而 可 以 保持 虚拟 拷贝 总 是 最 新 的 。 

VMM 管理 真实 快 表 的 一 个 简单 方法 就 是 当 一 个 虚拟 机 被 激活 时 就 重 写 快 表 。VMM 把 客户 
虚拟 快 表 里 的 实际 地 址 正确 转换 为 物理 快 表 中 的 物理 地 址 后 将 客户 虚拟 快 表 的 表 项 拷 人 物理 快 
表 中 ， 这 基本 和 结构 化 页 表 里 的 影像 映射 机 制 相 同 。 但 这 样 存在 一 个 问题 ， 就 是 当 每 次 控制 权 在 
各 个 虚拟 机 间 转 换 (或 转换 到 VMM) 的 时 候 所 有 的 快 表 表 项 都 要 重 写 ， 这 会 带 来 相当 大 的 系统 
开销 ， 尤 其 在 快 表 很 大 时 。 

另 一 个 方法 就 是 利用 地 址 空间 标识 (ASID) ， 在 结构 化 、 软 件 管理 的 TLB 中 每 一 个 表 
项 通常 都 包含 有 该 标识 ,目的 是 允许 多 个 进程 同时 在 快 表 中 拥有 地 址 空间 映射 。ISA 中 有 
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一 个 结构 化 的 ASID 寄存 器 ， 当 一 个 快 表 作 为 地 址 翻译 过 程 的 一 部 分 被 访问 时 ，ASID 当前 
的 寄存 器 值 必须 匹配 快 表 表 项 中 的 ASID 值 ， 从 而 保证 访问 的 快 表 表 项 对 于 当前 活动 进程 是 
有 效 的 。 

ASID 机 制 可 以 被 虚拟 化 ， 从 而 允许 VMM 以 全 局 有 效 的 方式 来 管理 快 表 。 采 用 这 种 方法 时 ， 
VMM 维护 真实 的 ASID 寄存 器 而 其 他 虚拟 机 都 有 一 个 虚拟 ASID 寄存 器 。 任 何 时 候 VMM 将 真实 
快 表 中 存在 的 表 项 从 客户 ASID 值 映射 到 真实 ASD 值 。 这 样 ， 在 VMM 的 控制 和 管理 下 来 自 不 
同 客户 虚拟 机 的 一 些 地 址 空间 可 以 同时 存在 于 真实 快 表 中 。 当 VMM 决定 将 一 个 表 项 加 入 快 表 
时 ， 如 果 还 没有 分 配 一 个 真实 的 ASID 给 该 表 项 使 用 的 地 址 空间 ，VMM 就 必须 为 该 新 地 址 空间 
分 配 一 个 真实 的 ASID。 如 果 该 ASID 已 分 配给 其 他 虚 地 址 空间 ， 则 必须 从 其 他 虚拟 空间 收回 该 
ASID 并 将 使 用 该 ASID 的 所 有 快 表 项 设 为 无 效 。 假 如 客户 对 它 自 己 的 虚拟 ASD 寄存 器 进行 写 操 
作 ， 这 个 操作 是 一 条 敏感 指令 而 被 VMM 截获 ， 然 后 VMM 就 会 修改 内 存 中 的 该 虚拟 拷贝 ， 并 用 
一 个 映射 到 该 虚拟 ASID 的 真实 ASID 修改 真实 的 ASID 寄存 器 值 。 


BHRR ASID RHR 真实 快 表 





ASID | ASID 

prog. 1 — ASID 3 

prog. 2— ASID 7 | -|| 
ASID 了 映射: 

prog. 1- ASID 3 





VM2 的 虚拟 快 表 


图 8-16 实现 结构 化 快 表 系统 中 的 快 表 虚 拟 化 。 系 统 使 用 和 图 8-14 相同 的 页 面 映射 方式 ， 
VMM 维护 客户 虚拟 机 (图 左 ) 的 虚拟 快 表 ， 并 通过 将 虚拟 ASIDs 重 映 射 到 真实 
ASIDs 来 管理 真实 快 表 ， 而 ASID 映射 表 保 持 虚 拟 ASIDs 到 真实 ASIDs 的 对 应 关系 


图 8-16 给 出 了 图 8-14 示例 的 ASD 实现 。 虚 拟 快 表 在 图 左 侧 ， 它 们 与 每 个 客户 虚拟 机 的 虚 
实 映射 相对 应 。 两 个 应 用 程序 在 VMI 的 虚拟 快 表 中 都 有 人 口 ， 通 过 不 同 的 ASID 值 来 区 别 。 
VMM 维护 与 图 8-14 中 相同 的 从 实地 址 到 物理 地 址 的 映射 表 。 真 实 快 表 在 图 8-16 HAM, RA 
一 个 真实 快 表 ， 但 可 以 允许 2 个 虚拟 机 的 地 址 翻译 同时 共存 。ASID 映射 表 由 VMM 维护 ， 它 将 
虚拟 ASD 映射 到 真实 快 表 中 的 真实 ASID。 请 注意 在 VMI 上 的 programl 和 VM2 上 的 program2 
在 它们 各 自 的 虚拟 机 上 有 相同 的 虚拟 ASID (3), 但 是 VMM 将 它们 分 别 映 射 到 不 同 的 真实 ASID 
(4 和 9) 上 使 得 在 真实 快 表 中 能 够 区 别 开 。 


8.4 资源 虚拟 化 一 一 输入 /输出 设备 
对 输入 /输出 子 系统 的 虚拟 化 是 实现 系统 虚拟 机 环境 的 一 个 比较 困难 的 方面 。 每 个 LO 设备 
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都 有 自己 的 特征 和 独特 的 控制 方式 。 造 成 VO 设备 虚拟 化 困难 的 一 个 原因 是 一 种 类 型 的 设备 数 
通常 很 大 而 且 还 不 断 增加 ， 而 且 IO 设备 的 种 类 也 越 来 越 多 。 对 任何 新 VMM 来 说 ， 要 实现 如 此 
多 设备 的 虚拟 化 都 是 一 个 挑战 。 

从 另 一 方面 来 看 ， 从 早期 分 时 共享 技术 开始 就 已 开发 了 对 LO 设备 的 共享 技术 。 对 传统 操作 
系统 来 说 ， 为 了 解决 ZO 设备 不 断 增加 的 问题 ， 开 发 了 抽象 技术 来 实现 对 各 种 不 同 设备 和 类 型 的 
支持 。 在 虚拟 机 系统 中 也 可 以 采用 这 些 抽象 技术 来 实现 虚拟 化 。 

IAE LVO 设备 类 型 的 虚拟 化 策略 包括 建立 设备 的 虚拟 版 本 和 虚拟 该 设备 上 的 IO 活动 。 提 
供给 客户 虚拟 机 的 虚拟 设备 一 般 来 说 (但 不 是 必须 ) 是 由 类 似 的 底层 硬件 支持 的 。 当 一 个 客户 
虚拟 机 请 求 使 用 虚拟 设备 时 ，VMM 会 截获 该 请 求 ， 然 后 将 该 请 求 转化 为 对 底层 硬件 的 等 价 请 
求 ， 并 由 底层 硬件 执行 操作 。 接 下 来 的 两 小 节 分 别 讲述 了 虚拟 化 设备 的 技术 和 执行 虚拟 IO 活动 
的 技术 。 


8.4.1 虚拟 化 设备 


许多 技术 能 用 来 对 IO 设备 进行 虚拟 化 ， 而 对 于 给 定 设备 虚拟 化 所 采用 的 技术 决定 于 该 设 
备 是 否 共享 和 它 的 共享 方式 。 以 下 是 通用 的 设备 分 类 。 

独占 设备 

有 一 些 IO 设备 由 它们 固有 的 性 质 所 决定 ， 只 能 为 某 一 特定 客户 虚拟 机 使 用 或 者 至 少 要 经 
过 很 长 时 间 才 会 从 一 个 客户 虚拟 机 切换 到 另 一 个 ， 像 图 822 中 的 显示 器 、 键 盘 、 鼠 标 和 扬声器 等 
都 属于 这 一 类 独占 设备 。 在 这 种 情况 下 ,这些 设备 不 必 被 虚拟 化 ， 从 理论 上 来 说 客户 操作 系统 能 
够 绕 过 VMM 直接 对 这 些 设 备 发 出 操作 请 求 。 但 在 实际 情况 中 ， 由 于 客户 操作 系统 在 非特 权 模 式 
下 运行 ， 所 以 这 些 请 求 首先 被 VMM 转发 。 从 设备 来 的 中 断 也 首先 被 VMM 处 理 ， 它 判断 该 请 求 
来 自 于 一 个 特定 客户 机 的 独占 设备 ， 然 后 将 该 请 求 放 人 该 客户 机 的 中 断 处 理 队 列 以 便 在 该 客户 
机 被 激活 时 进行 处 理 。 

分 区 设备 

对 一 些 像 磁 盘 这 样 的 设备 ， 很 容易 将 其 可 用 资源 在 各 个 虚拟 机 间 分 区 使 用 。 比 如 一 个 大 容 
量 磁盘 能 够 被 分 为 多 个 小 的 虚拟 磁盘 来 作为 各 个 虚拟 机 的 独占 设备 ， 每 个 虚拟 机 都 将 其 作为 一 
个 物理 磁盘 来 使 用 ， 仅 仅 是 容量 小 一 些 而 已 。 

而 为 了 仿真 这 种 虚拟 设备 〈 如 磁盘 ) 的 请 求 ，VMM 需要 维护 一 个 映射 关系 将 相关 参数 (如 
RRA) 转换 为 底层 物理 设备 的 对 应 参数 ， 再 将 该 请 求 发 给 物理 设备 〈 如 磁盘 控制 器 ) 。 类 
似 地 ， 物 理 设备 返回 的 状态 信息 被 用 来 更 新 映射 中 的 状态 信息 ， 并 在 传 给 客户 虚拟 机 前 转化 为 
虚拟 设备 的 对 应 参数 。 

共享 设备 

对 于 像 网 卡 这 样 的 一 些 设 备 ， 能 够 以 较 细 的 时 间 粒 度 被 多 个 客户 虚拟 机 共享 。 每 个 客户 都 
有 自己 的 关于 设备 使 用 的 虚拟 状态 ， 比 如 一 个 虚拟 网 络 地 址 。VMM 负责 为 每 个 客户 虚拟 机 维护 
这 些 状态 信息 。 客 户 机 对 该 设备 的 一 个 请 求 被 VMM 使 用 虚拟 设备 驱动 来 转化 为 一 个 对 物理 设备 
的 请 求 。 对 一 个 网 络 而 言 ，VMM 的 岩 拟 例 程 会 将 来 自 虚 拟 机 的 请 求 转换 为 对 使 用 本 身 物 理 网 络 
地 址 的 某 个 网 络 端口 的 请 求 。 同 样 对 来 自 不 同 端口 的 请 求 会 被 转化 为 对 各 个 虚拟 机 虚拟 网 络 地 
址 的 请 求 。 

假 脱 机 设备 

假 脱 机 设备 也 是 共享 的 , 但 从 时 间 粒 度 上 来 说 比 网 卡 等 设备 大 ， 一 个 常见 的 例子 就 是 打印 
机 。 从 概念 上 说 ， 打 印 机 在 完成 一 个 打印 任务 前 必须 完全 处 于 当前 正在 打印 的 程序 控制 之 下 ， 即 
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使 在 打印 过 程 中 该 程序 被 多 次 换 人 和 换 出 。 而 假 脱 机 技术 则 实现 了 这 个 目标 (Madnick 和 Dono- 
van 1974) 。 在 打印 机 例子 中 ， 假 脱 机 技术 将 来 自 每 个 程序 的 打印 内 容 保存 在 内 存 中 该 程序 特定 
的 缓冲 区 中 ， 只 有 在 该 程序 向 打印 机 发 出 一 个 特殊 信号 时 才 将 其 对 应 的 缓冲 区 关闭 。 操 作 系统 
在 缓冲 区 关闭 时 调度 脱 机 缓冲 的 打印 ， 保 证 一 个 程序 的 输出 被 完整 打印 后 才 将 打印 机 分 配给 另 
外 一 个 程序 。 


VM1 的 Spool 表 




















图 8-17 虚拟 机 中 的 假 脱 机 机 制 。 当 程序 状态 为 “completed” 时 ,它们 的 spool 区 域 被 拷贝 到 VMM 的 
spool KIR, VMM 的 spool 表 中 的 对 应 表 项 状态 被 设置 为 “waiting”， 在 打印 结束 后 ， 该 程序 
在 两 个 表 中 的 状态 被 改变 为 “printed”， 而 状态 为 “printed” 的 程序 的 spool 区 域 可 以 被 覆盖 和 
重新 使 用 


实现 假 脱 机 设备 的 虚拟 化 可 以 通过 使 用 一 个 两 级 spool 表 来 实现 ， 如 图 8-17 所 示 。 第 一 级 表 
06] 在 操作 系统 内 ， 为 系统 内 的 每 个 活动 进程 创建 一 个 表 ， 第 二 级 表 在 VMM 里 ， 为 每 个 客户 虚拟 机 
创建 一 个 表 。 操 作 系统 对 脱 机 缓冲 的 打印 请 求 会 被 VMM 截获 ， 然 后 将 该 脱 机 缓冲 内 容 拷贝 到 
VMM 自己 的 脱 机 缓冲 ， 这 样 就 允许 VMM 在 同一 打印 机 上 调度 来 自 不 同 虚拟 机 的 请 求 。 
可 以 采取 多 种 技术 来 优化 在 虚拟 机 和 VMM 间 大 量 脱 机 数据 的 传送 。 比 如 VMM 可 以 只 简单 
记录 脱 机 数据 的 位 置 和 大 小 ， 直 到 该 缓冲 中 所 有 数据 都 已 打印 完毕 后 才 向 客户 操作 系统 发 出 完 
成 信号 。 另 一 个 方法 就 是 让 VMM 拥有 唯一 的 物理 缓冲 池 ， 而 每 个 虚拟 机 拥有 VMM 分 配 的 虚拟 
缓冲 ， 但 这 种 方式 取决 于 VMM 检查 这 些 缓冲 分 配 的 能 力 和 客户 操作 系统 调用 VMM 提供 的 服务 
的 能 力 。 
这 种 方式 的 打印 机 虚拟 化 更 适合 于 老式 的 行 式 打印 机 ， 因 为 当时 它 的 价格 昂贵 而 且 和 主机 
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紧密 连接 。 现 代 更 普遍 的 情况 是 通过 网 络 来 访问 可 用 的 打印 机 ， 这 些 打印 机 已 经 有 软件 对 来 自 
网 络 中 不 同 节点 的 任务 进行 缓存 和 执行 假 脱 机 操作 。 这 种 网 络 环境 下 的 打印 机 虚拟 化 很 容易 ， 
只 要 虚拟 机 已 经 连接 上 了 网 络 并 且 拥 有 了 自己 的 网 络 标识 。 这 种 情况 下 的 打印 机 软件 不 能 区 分 
打印 请 求 是 来 自 真实 机 器 还 是 虚拟 机 。 

不 存在 的 物理 设备 

采用 虚拟 化 技术 可 以 将 一 个 没有 对 应 物理 设备 的 虚拟 设备 附属 到 一 个 虚拟 机 上 。 例 如 ， 一 
个 虚拟 机 能 够 通过 一 个 虚拟 网 卡 来 实现 和 相同 平台 上 其 他 虚拟 机 的 通信 ， 而 平台 上 不 需要 有 一 
个 真实 网 卡 存在 。 在 这 种 情况 下 ，VMM 能 截获 从 设备 驱动 来 的 VO 请 求 ， 然 后 仿真 网 络 数据 包 
的 传输 ， 并 在 相应 目的 虚拟 机 的 设备 驱动 中 缓冲 数据 包 ， 再 产生 一 个 中 断 让 目的 虚拟 机 来 处 理 。 


8.4.2 虚拟 化 1/0 活动 


整个 VO 执行 的 过 程 如 图 8-18 所 示 。 如 在 附录 
A.4.3 中 讨论 的 那样 ， 操 作 系 统 抽象 化 了 硬件 设备 的 大 
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部 分 特征 ， 使 得 对 这 些 设备 的 访问 可 以 通过 系统 调用 接 系统 调用 

口 和 设备 驱动 接口 来 实现 。 再 往 下 一 层 就 是 实际 的 YO 

操作 层 接口 ， 单 独 的 指令 通过 在 /O 总 线 上 放置 设备 特 et 

定 的 地 址 和 数据 来 与 硬件 直接 交互 。 应 用 程序 通过 系统 ii 

调用 接口 发 出 与 设备 无 关 的 VO 请 求 ， 如 open( ) 和 对 动词 用 

read( ) ， 然 后 由 操作 系统 将 设备 无 关 的 请 求 转换 为 对 设 Diva 

备 驱动 程序 的 调用 ， 设 备 驱动 程序 在 系统 模式 下 运行 ， -一 

它 要 负责 处 理 /O 事务 中 与 设备 相关 的 特定 因素 。 例 如 物理 内 存 和 vo 操作 

当 文件 系统 使 用 一 个 块 设备 接口 来 写 人 磁盘 时 ， 设 备 了 驱 

动 程序 就 将 这 条 与 设备 无 关 的 请 求 转变 为 特定 于 系统 实 

际 附属 的 磁盘 控制 器 芯片 的 操作 。 | 
一 个 VO 活动 是 由 客户 软件 和 VMM 来 联合 执行 


的 。 通 常 来 说 ，VMM 可 以 在 系统 调用 接口 、 设 备 驱动 ”图 8-18 执行 输入 /输出 活动 的 主要 接口 
接口 和 操作 层 接 口 这 三 个 接口 的 任 一 处 截获 客户 的 YO 
请 求 并 将 其 从 虚拟 设备 活动 转化 为 真实 设备 活动 ,我们 将 会 讨论 这 三 种 不 同 的 方法 。 注 意 到 最 
终 由 VMM 直接 和 硬件 设备 交互 ， 所 以 由 VMM 来 调用 设备 驱动 程序 或 者 控制 对 设备 驱动 程序 的 
访问 。 

在 O 操作 层 的 虚拟 化 

附录 A. 3. 5 给 出 了 各 种 不 同类 型 的 WO 设备 和 处 理 器 通信 的 不 同方 式 。 对 许多 RISC 处 理 器 
来 说 ,通常 采用 存储 映射 IO， 即 通过 对 存储 地 址 空间 特定 位 置 的 读 写 来 对 O 控制 器 发 出 命 
令 ， 这 些 存 储 位置 是 受 操作 系统 保护 的 ， 不 能 在 用 户 模 式 下 访问 ; 而 另 一 方面 ,IBM System/360 
及 其 后 续 芯 片 和 Intel IA-32 处 理 器 都 提供 了 能 用 来 通知 设备 控制 器 的 特殊 指令 ， 用 户 程 序 不 能 直 
接 使 用 这 些 指令 ， 它 们 只 能 调用 系统 功能 来 使 用 这 些 特 权 LO 指令 去 完成 YO 请 求 。 

LO 操作 的 这 种 特权 (或 保护 ) 性 质 使 得 VMM 能 轻松 地 截获 它 ， 因 为 它 在 用 户 模式 下 会 触 
发 陷阱 操作 。 但 在 截获 以 后 VMM 要 准确 知道 所 请 求 的 VO 活动 却 比较 困难 。 一 个 完整 的 IO 活 
动 〈 如 磁盘 读 ) 通常 包括 设备 驱动 程序 发 出 的 多 条 LO 指令 或 多 次 对 存储 映射 区 的 访 存 操作 ， 
这 些 操作 都 是 协同 执行 的 ， 所 以 VMM 要 想 确定 更 高 层次 的 YO 活动 ， 就 必须 有 逆向 工程 能 力 以 
从 单独 的 IO 操作 推断 出 完整 的 LO 活动 ， 这 个 工作 在 实际 中 是 极其 困难 的 。 
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在 设备 驱动 层 的 虚拟 化 

如 图 8-18 所 示 ， 在 一 个 典型 的 IO 请 求 中 ， 一 个 系统 调用 ， 如 read ( ) ， 被 操作 系统 转换 为 
对 设备 驱动 程序 接口 的 调用 。 假 如 VMM 能 截获 对 虚拟 设备 驱动 的 调用 ， 它 就 能 将 虚拟 设备 信息 
转换 为 对 应 的 物理 设备 信息 并 将 其 重 定 向 为 对 相应 物理 设备 驱动 的 调用 。 这 种 方法 能 够 直接 、 
自然 地 进行 虚拟 化 ， 但 这 需要 VMM 的 开发 者 对 客户 操作 系统 及 其 内 部 设备 驱动 接口 有 所 了 解 。 
这 一 点 在 虚拟 化 一 个 不 知 内 部 实现 的 任意 操作 系统 时 是 非常 困难 的 。 

但 在 许多 实际 应 用 中 ，VMM 开发 者 的 目标 是 特定 的 客户 操作 系统 ， 如 Windows 和 Linux, 
在 这 种 情况 中 ， 可 以 为 每 个 客户 操作 系统 开发 特定 的 虚拟 设备 驱动 (每 种 设备 类 型 一 个 ) ， 这 些 
驱动 程序 是 分 发 给 用 户 的 整体 VMM 程序 包 的 一 部 分 ， 所 以 当 一 个 客户 操作 系统 被 安装 时 ， 这 些 
虚拟 设备 驱动 也 被 同时 安装 了 。 

当 这 种 方式 运用 到 本 地 虚拟 机 系统 (如 图 8-5) 中 时 ， 还 需要 VMM 拥有 所 有 的 系统 附属 物 
理 设 备 的 真实 驱动 程序 ， 这 个 问题 可 以 采用 从 现 有 操作 系统 “ 借 ” 驱 动 程序 (和 接口 ) 的 方式 
来 解决 ， 例 如 使 用 Linux 的 驱动 。 在 一 个 宿主 虚拟 机 系统 环境 中 ， 宿 主 操作 系统 中 的 驱动 被 使 
用 ， 这 种 方式 在 下 一 节 将 详细 讨论 。 

在 系统 调用 层 的 虚拟 化 

从 理论 上 来 说 ， 在 操作 系统 接口 (ABI) 截获 初始 的 IO 请 求 能 让 虚拟 化 进程 更 高 效 ， 因 为 
随后 整个 WO 活动 都 能 由 VMM 来 完成 ， 但 这 样 做 VMM 需要 ABI 程序 来 遮掩 对 用 户 可 见 的 ABI 
程序 。 为 每 个 不 同 的 客户 操作 系统 提供 的 ABI 程序 都 是 不 同 的 ， 编 写 ABI 的 仿真 程序 是 VMM 
开发 工作 中 的 必要 组 成 部 分 ， 与 开发 设备 驱动 程序 (前 节 所 述 ) 相 比 开发 者 需要 有 更 广泛 的 关 
于 客户 操作 系统 的 内 部 知识 ， 而 且 ABI 程序 和 客户 操作 系统 其 他 部 分 间 的 所 有 交互 都 必须 被 忠 
实地 仿真 。 概 括 起 来 说 ， 只 有 客户 操作 系统 的 结构 良好 而 且 VMM 开发 者 深入 了 解 它 ， 这 项 相当 
艰辛 的 工作 才 有 可 能 完成 。 

Bil: 网 络 虚拟 化 

图 8-19 显示 了 一 个 完整 虚拟 化 过 程 的 例子 ， 系 统 拥 有 一 张 主 网 卡 ， 同 时 每 个 虚拟 机 实现 了 
自己 的 虚拟 网 卡 ， 类 似 于 Sugerman Venkitachalam 和 Lim (2001) 中 描述 的 情况 。 其 中 有 2 种 
情况 。 第 一 种 情况 是 虚拟 的 网 络 接口 卡 (network interface card, NIC) 类 型 和 主机 系统 中 的 物理 
NIC 类 型 相同 。 往 外 部 计算 机 系统 的 一 个 消息 发 送 请 求 通常 包括 一 系列 VO 操作 ， 这 里 我 们 假设 
为 IA-32 ISA 中 的 OUT 或 OUTS 指令 ， 和 一 条 指令 相关 联 的 是 一 个 端口 地 址 ， 这 里 假设 为 0xf0， 
它 处 于 客户 系统 为 NIC 指 配 的 D 有 效 范围 之 内 。 每 个 端口 有 一 个 相关 联 的 状态 位 ， 以 决定 系统 
在 响应 一 个 端口 的 IO 请 求 时 是 否 要 触发 陷阱 操作 。 

作为 虚拟 机 状态 的 一 部 分 ，VMM 保存 了 对 客户 呀 拟 机 所 有 端口 的 访问 权限 表 。OUTS 指令 
是 一 条 特权 指令 ， 所 以 在 执行 时 系统 会 触发 到 VMM 的 陷阱 操作 ，VMM 随后 检查 当前 客户 虚拟 
机 的 端口 访问 权限 表 ， 如 果 允 许 访问 则 将 其 转化 为 对 端口 0x280 的 新 的 OUTS 指令 ， 该 端口 是 实 
际 计算 机 上 的 NIC 端口 ， 同 时 将 指向 要 被 移动 的 数据 串 的 虚 地 址 转换 为 VMM 虚 地 址 空间 内 指向 
相同 数据 串 或 其 拷贝 的 虚 地 址 。VMM 确认 端口 0x280 在 它 的 访问 权限 表 中 是 允许 的 ， 随 后 将 新 
的 OUTS 指令 发 射 ，OUTS 指令 执行 时 处 于 VMM 的 特权 模式 下 ， 将 触发 陷阱 调用 VMM 上 安装 
的 NIC 设备 驱动 程序 来 执行 传输 操作 。 

第 二 种 情况 是 VMM 获取 原始 请 求 后 将 其 转化 为 另 一 种 形式 ， 原 因 可 能 是 由 于 虚拟 NIC 和 系 
统 中 可 用 的 物理 NIC 类 型 不 一 致 或 者 存在 一 种 能 更 高 效 完 成 该 请 求 的 方式 。 当 物理 NIC 和 虚拟 
NIC 不 是 同一 类 型 的 时 候 ，VMM 则 需要 为 虚拟 NIC 实现 一 个 驱动 程序 ， 它 将 对 虚拟 NIC 的 WO 
操作 (如 OUTS 指令 ) 转化 为 其 他 的 对 物理 NIC 的 IO 操作 ， 而 且 在 原始 的 VO 操作 序列 上 并 
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不 总 是 能 够 一 次 一 个 地 完成 这 种 转换 ， 所 以 在 这 种 情况 下 VMM 需要 结合 虚拟 NIC 的 设备 模型 ， 
它 首先 从 到 来 的 VO 操作 序列 中 收集 足够 的 信息 ， 来 产生 正确 的 对 物理 NIC 的 输出 指令 序列 。 


VM1 上 的 用 户 


场景 1 


用 户 向 外 部 机 器 
发 送 消息 ， 如 : 
使 用 send( ) 


场景 2 

用 户 向 本 地 虚拟 
机 发 送 消息 3 如 : 
使 用 send() 


VM1 上 的 OS 


OS 将 其 转换 为 对 虚 
H NIC 的 IO 操作 ， 
如 : OUTS 0xf0 


VMM 通过 虚拟 桥 
将 数据 报 发 送 到 
物理 NIC 的 设备 
驱动 程序 ， 如 : 
OUTS 0x280 


VMM 通过 虚拟 桥 
将 数据 报 发 送 到 

物理 NIC 的 设备 
驱动 程序 ， 如 : 


设备 驱动 程序 


NIC 设备 驱动 程序 
使 用 线 信 号 在 网 络 
中 发 包 


到 网 络 


OUTS 0x280 


NIC 设备 驱动 程序 
将 发 送 消 息 转换 为 
接收 VM 的 接收 信 
息 ， 不 产生 线 信号 


VM2 上 的 用 户 VM2 上 的 OS 


OS 中 的 中 断 处 理 
程序 为 接收 包产 
生 IO 指令 


VMM 在 接收 OS 


接收 者 收 到 数据 包 he OS 





特权 模式 
图 8-19 ”网 络 接口 卡 的 虚拟 化 

在 某 些 情况 下 ， 修 改 物理 NIC 的 设备 驱动 程序 来 直接 处 理 WO 操作 非常 容易 。 图 8-19 的 第 
二 部 分 描述 了 在 同一 平台 上 的 两 个 虚拟 机 相互 通信 的 情况 。 如 前 所 述 ， 被 翻译 后 的 OUTS 指令 触 
发 的 主机 设备 驱动 程序 判断 出 消息 的 目的 地 是 平台 上 另 一 台 虚 拟 机 ， 就 不 再 将 消息 通过 物理 线 
路 传送 到 物理 NIC ， 而 是 在 内 部 将 该 消息 作为 一 个 接收 到 的 发 往 目 的 虚拟 机 的 消息 而 重新 路 由 ， 
并 调度 一 个 WO 中 断 使 目的 虚拟 机 机 接收 消息 。 

如 果 这 种 重 路 由 操作 能 够 在 VMM 内 核 完 成 而 不 通过 设备 驱动 程序 ， 那 样 会 更 高 效 。 如 在 
z/VM (VM/370 的 当前 版 本 ) 中 实现 的 小 磁盘 缓存 (minidisk cache，MDC)， 它 试图 通过 在 处 
理 器 存储 中 缓存 数据 来 减少 磁盘 IO 访问 次 数 。 在 很 多 情况 下 ， 尤 其 在 数据 被 多 个 虚拟 机 引用 时 
它 非 常 有 效 。 虽 然 它 可 能 带 来 一 些 IO 分 页 的 额外 开销 ， 但 对 磁盘 IO 访问 的 减少 能 够 抵消 额外 
开销 。VMM 在 MDC 层 调 用 一 个 程序 来 判断 所 请 求 的 数据 是 否 在 cache 中 ， 如 果 满 足 ， 则 可 以 完 
全 避免 对 物理 设备 驱动 的 访问 。 


8.4.3 输入 /输出 虚拟 化 和 宿主 虚拟 机 
如 在 8. 1.4 节 中 讨论 的 那样 ， 宿 主 虚拟 机 系统 是 与 在 本 地 运行 的 宿主 操作 系统 协同 工作 的 ， 


用 户 模 式 
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而 在 一 个 双 模 式 宿主 虚拟 机 系统 中 ， 部 分 VMM 是 在 硬件 上 本 地 运行 的 ， 而 另 一 部 分 VMM 则 作 
为 工作 在 宿主 操作 系统 上 的 应 用 程序 来 调用 宿主 机 提供 的 资源 分 配 服务 。 一 个 来 自 于 客户 虚拟 
机 的 IO 请 求 被 本 地 运行 的 VMM 部 分 转化 为 用 户 应 用 程序 对 宿主 机 的 请 求 ， 例 如 在 客户 虚拟 机 
上 的 驱动 要 读 取 磁盘 的 扇 区 ， 最 终 VMM 的 用 户 模式 部 分 将 向 宿主 操作 系统 发 出 一 个 read () 操 
作 来 获取 相应 的 数据 ， 宿 主 操作 系统 将 执行 自己 的 VO 操作 来 完成 read () 请 求 , 但 是 VMM 和 
客户 机 对 该 实现 的 物理 细节 是 不 知道 的 ; 同样 ， 当 VMM 接收 到 一 个 VO 中 断后 ， 该 中 断 在 被 客 
户 操作 系统 接收 之 前 会 先 传 给 宿主 操作 系统 和 它 的 设备 驱动 程序 。 

采用 宿主 虚拟 机 的 一 个 重要 优势 就 是 在 VMM 中 可 以 不 必 提 供 设备 驱动 程序 ， 而 是 间接 使 用 
宿主 操作 系统 里 已 经 存在 的 设备 驱动 程序 。 在 要 求 VMM 提供 大 量 数 自 和 种 类 的 设备 驱动 程序 非 
常 困难 的 情况 下 ， 这 种 方式 非常 有 用 ， 而 PC 桌面 应 用 环境 就 是 这 样 一 个 例子 。 

在 一 个 双 模 式 宿 主 虚拟 机 系统 中 ， 除 了 宿主 操作 系统 外 ， 还 有 另外 三 个 增加 组 件 。 

VMM-n (native) : 该 组 件 在 硬件 上 本 地 运行 ， 其 性 质 和 本 地 虚拟 机 的 VMM 类 似 。 正 是 它 
截获 虚拟 机 中 执行 的 特权 指令 或 修补 后 的 关键 指令 所 触发 的 陷阱 操作 ， 它 还 可 能 会 为 少量 设备 
提供 设备 驱动 程序 ， 主 要 是 由 于 性 能 原因 或 宿主 操作 系统 没有 提供 驱动 。 

VMM-u (user): 该 组 件 作为 一 个 用 户 模式 进程 运行 在 宿主 操作 系统 上 。 像 前 面 提 到 的 那 
样 ， 它 代表 本 地 模式 VMM 向 宿主 操作 系统 发 出 资源 请 求 ， 尤 其 是 存储 器 和 LO 请 求 。VMM-u 
使 用 宿主 操作 系统 提供 的 系统 库 函 数 来 提出 这 些 请 求 。 

VMM-d (driver): 该 组 件 提供 了 以 上 两 个 组 件 之 间 的 通信 方式 。 具 体 实 现 方法 是 使 得 
VMM-n 对 VMM-u 来 说 好 像 是 宿主 操作 系统 的 一 个 设备 ， 而 VMM-d 实质 上 是 宿主 操作 系统 上 安 
装 的 一 个 特殊 设备 驱动 ， 它 提供 了 从 VMM-u 到 VMM-n 的 链接 。 宿 主 操作 系统 上 唯一 允许 访问 
VMM-n 设备 的 用 户 程序 就 是 VMM-u 组 件 。 

像 以 前 提 到 的 那样 ， 使 用 宿主 虚拟 机 的 最 大 优势 就 是 可 以 很 方便 地 在 一 个 已 经 运行 商用 操 
作 系统 的 平台 上 构建 VMM 并 且 VMM 中 不 必 包 含 真实 设备 驱动 。 

但 是 双 模 式 宿主 虚拟 机 系统 也 有 其 缺点 : 第 一 ，VMM-n 和 宿主 操作 系统 同时 运行 在 特权 模 
AF, ARE VMM-n 和 宿主 OS 会 有 意 无 意 地 相互 影响 ,由 于 宿主 操作 系统 通常 不 会 在 系统 中 
有 VMM-n 的 情况 下 开发 和 调试 ， 所 以 这 个 缺点 进一步 恶化 了 ; 第 二 ， 资 源 分 配 完 全 由 宿主 操作 
系统 控制 ，VMM 对 资源 的 使 用 没有 足够 的 控制 和 信息 ， 从 而 VMM 中 资源 分 配 策略 的 效果 是 不 
可 预测 的 。 

双 模 式 宿主 虚拟 机 系统 与 本 地 虚拟 机 系统 相 比 性 能 上 也 有 劣势 ， 主 要 是 由 于 需要 在 两 个 
“世界 ”( VMM-n 和 宿主 操作 系统 ) 之 间 切 换 。 当 “世界 切换 ”发 生 时 ,在 将 控制 交 给 男 一 个 
“世界 ”之 前 需要 保存 原来 “世界 ”的 足够 信息 。 这 种 性 能 的 降低 在 LO 密集 型 负载 中 尤为 
明显 。 


8.4.4 VM/370 的 输入 /输出 虚拟 化 


在 System/370 中 的 IO 组 织 采用 了 基于 IOP 的 模型 ， 如 附录 图 A. 5d ras. IOP 从 处 理 器 获 
取 命 令 ， 然 后 代表 处 理 器 初始 化 LO 请 求 ， 控 制 数据 在 内 存 和 IO 设备 间 直 接 传输 ， 最 后 在 YO 
操作 完成 后 通过 中 断 通知 处 理 器 。 这 种 System/370 中 的 IOP 称 为 通道 ， 而 通道 和 操作 系统 的 通 
信和 则 通过 由 被 称 为 通道 命令 字 (channel command words, CCWs) 的 特殊 指令 构建 的 程序 来 实现 。 
每 个 CCWs 包含 内 存 地 址 、 传 输 数据 长 度 和 对 LO 设备 的 操作 命令 。 对 通道 的 请 求 过 程 包括 在 
内 存 中 构建 一 个 CCWs 序列 ， 然 后 发 射 一 条 包含 CCWs 指针 的 特权 开始 命令 (start YO ，SIO) 。 
对 处 理 器 而 言 ， 一 旦 请 求 设备 被 检测 到 而 且 开 始 执行 LO 操作 ，SIO 指令 就 执行 完毕 ; 4 VOR 
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作 完 成 后 ， 处 理 器 就 会 收 到 一 个 中 断 通知 。 

在 虚拟 机 中 ， 对 于 物理 实现 的 设备 的 IO 请 求 也 采取 相似 的 步骤。 虚拟 机 在 自己 的 虚 地 址 空 
间 创 建 CCW， 然 后 执行 SIO 指令 ， 它 是 特权 指令 , 将 引起 VMM (CP) 陷阱 。CP 参考 影像 页 表 
来 将 CCW 的 虚 地 址 映射 到 物理 地 址 。CP 在 原来 CCW 的 基础 上 构建 新 的 CCW， 将 虚拟 机 指定 
的 设备 地 址 转换 为 它 映射 到 的 物理 设备 的 地 址 ; CP 同时 还 指出 转换 后 的 与 WO 设备 交互 的 数据 
物理 存储 位 置 ， 并 保证 这 些 页面 在 物理 存储 器 中 。 分 页 的 采用 使 该 过 程 复杂 化 了 ， 因 为 跨越 多 个 
页 面 的 O 操作 可 能 会 被 划分 为 多 个 CCW。CP 随后 发 射 一 条 对 实际 设备 的 SIO 指令 ， 由 于 CP 
工作 在 系统 模式 下 ， 这 条 SIO 指令 不 会 引起 一 个 陷阱 操作 而 将 被 传 给 通道 。 

只 有 当 CP 从 自己 的 SIO 指令 返回 后 才 解 除 对 虚拟 机 产生 的 SIO 指令 的 阻塞 , 假如 由 于 WO 
设备 繁忙 而 存在 接收 命令 延迟 ，CP 还 可 以 调度 其 他 虚拟 机 在 处 理 器 上 运行 。 当 LO 操作 完成 后 ， 
IOP 就 产生 一 个 IO 中 断 ，CP 会 截获 这 个 中 断 ， 在 产生 这 个 请 求 的 处 理 器 状态 表 中 填 人 相关 信 
息 ， 并 将 中 断 传递 给 相应 虚拟 机 的 操作 系统 ， 随 后 操作 系统 按照 通常 的 方式 来 处 理 它 。 

而 对 低速 WO 设备 (如 打印 机 和 读 卡 器 ) 则 采用 了 另 一 种 方案 ，CP 会 仿真 这 些 设 备 并 在 磁 
盘 上 将 信息 缓存 后 向 虚拟 机 发 出 一 个 软件 中 断 ， 这 种 假 脱 机 技术 〈 见 第 8.4.1 节 ) 在 多 个 虚拟 
机 试图 同时 访问 设备 时 能 提高 资源 利用 率 。 

最 后 要 说 的 是 ，VM7370 提供 的 IO 设备 可 以 没有 对 应 的 物理 设备 ， 这 种 类 型 设备 的 代表 就 
是 小 型 磁盘 ， 它 提供 的 虚拟 磁盘 比 当 时 磁盘 的 203 个 柱 面 要 小 得 多 。 这 种 方法 允许 昂贵 资源 可 以 
经 济 的 在 多 个 虚拟 机 用 户 之 间 共 有 。 


8.5 系统 虚拟 机 的 性 能 提升 方法 


虚拟 机 能 够 在 多 用 户 共 享 硬件 资源 的 情况 下 提高 资源 利用 率 ， 对 每 个 用 户 来 说 都 仿佛 拥有 
系统 的 所 有 资源 ， 但 这 错误 地 诱导 用 户 想 获得 和 真实 完整 计算 机 上 相当 的 性 能 。 在 早期 虚拟 机 
上 基于 某 些 评测 程序 的 性 能 评测 中 ， 得 出 的 结论 是 在 虚拟 机 上 没有 其 他 用 户 的 情况 下 使 用 虚拟 
机 所 能 获得 的 性 能 最 多 达到 本 地 运行 时 的 21% (MacKinnon 1979) 。 在 接 下 来 的 章节 中 我 们 将 讨 
论 虚 拟 机 中 的 性 能 下 降 的 原因 和 弥补 性 能 差距 的 硬件 辅助 手段 。 


8.5.1 性 能 下 降 的 原因 


程序 在 虚拟 机 上 运行 和 在 本 地 运行 时 性 能 有 差距 的 原因 包括 以 下 几 个 方面 : 

建立 (setup) : 在 虚拟 机 被 激活 之 前 ， 存 在 着 初始 化 机 器 状态 的 开销 ， 这 些 初 始 化 工作 
包括 设置 计时 设备 、 寄 存 器 和 程序 计数 器 。 

A (emulation): 像 前 面 讨论 的 那样 ， 不 是 所 有 的 客户 机 指令 都 能 本 地 执行 ， 有 些 客户 
指令 需要 被 VMM 仿真 (通常 通过 解释 ) 。 通 常 这 种 仿真 并 不 局 限于 敏感 指令 ， 有 时 仿真 
执行 敏感 指令 周围 的 一 段 指令 可 以 减少 在 仿真 执行 态 和 本 地 运行 态 间 的 切换 次 数 。 

中 断 处 理 (interrupt handling) ， 虚拟 机 上 运行 程序 产生 的 中 断 首先 必须 由 VMM 处 理 ， 即 
使 最 终 它 由 客户 操作 系统 来 处 理 。 

状态 保存 (state saving): 在 必须 将 系统 控制 权 转 给 VMM 时 ， 存 在 着 保存 虚拟 机 状态 的 
开销 。 

记录 (bookkeeping); 通常 虚拟 机 需要 执行 一 些 特殊 操作 来 反映 实际 计算 机 上 等 价 的 行 
为 ， 例 如 在 虚拟 机 上 对 用 户 收费 时 间 的 统计 就 和 实际 的 计算 机 不 一 样 ， 用 户 模式 下 的 活 
动 需要 对 用 户 收费 ， 但 系统 模式 下 的 活动 则 向 系统 收费 。 

时 间 延 长 (time elongation): 有 些 指令 在 虚拟 机 上 执行 比 在 本 地 执行 需要 更 多 的 处 理 过 


-2 


246 HEF 








程 。 例 如 本 地 执行 只 需 访 问 一 个 页 表 ， 而 在 虚拟 机 上 可 能 要 访问 影像 页 表 和 局 部 页 表 ， 
这 就 造成 了 虚拟 机 上 平均 访 存 时 间 比 实际 计算 机 上 要 大 很 多 。 

可 以 使 用 硬件 扩展 手段 来 减少 以 上 的 一 个 或 多 个 影响 ， 用 来 提升 虚拟 机 上 程序 运行 性 能 的 
硬件 部 件 被 称 为 虚拟 机 辅助 部 件 ( VM assist) 。 虚 拟 机 辅助 部 件 的 一 个 作用 就 是 减少 由 于 用 户 程 
序 的 某 些 行为 需 由 VMM 处 理 而 必须 进入 系统 模式 的 次 数 。 因 此 并 不 是 所 有 的 虚拟 机 环境 都 能 从 
虚拟 机 辅助 部 件 受 益 ， 尤 其 是 在 操作 系统 为 虚拟 机 定制 的 时 候 ， 比 如 VM/370 上 的 CMS 就 不 会 
像 其 他 操作 系统 那样 频繁 调用 特权 指令 ; 另 一 个 例子 就 是 一 些 简单 的 操作 系统 ， 如 DOS 就 不 会 
使 用 虚 地 址 转换 机 制 ， 因 而 不 会 从 为 提升 虚 地 址 转换 性 能 而 设计 的 硬件 中 受益 。 

在 后 面 几 节 中 我 们 将 讨论 帮助 提升 虚拟 机 性 能 的 一 些 硬件 技术 ， 在 8. 5. 2 节 我 们 讨论 提升 指 
令 仿真 性 能 的 技术 ,在 8. 5. 3 节 讨论 提升 VMM 其 他 方面 性 能 的 硬件 ， 在 8. 5. 4 节 讨 论 如 何 提升 
客户 系统 的 性 能 ， 在 8. 5. 5 节 讨 论 一 些 特殊 类 型 系统 性 能 提升 的 专门 技术 ， 在 8. 5. 6 节 讨论 Sys- 
tem/370 中 用 硬件 代替 一 系列 VMM 功能 的 技术 。 


8.5.2 指令 仿真 辅助 手段 


这 种 类 型 的 辅助 手段 用 来 改善 虚拟 机 应 用 程序 的 基本 开销 ， 即 需要 在 VMM 控制 下 进行 仿真 
的 系统 开销 。 在 大 多 数 情况 下 ， 由 特权 指令 执行 引发 的 中 断 将 首先 由 VMM 处 理 ，VMM 会 使 用 
一 段 程序 来 仿真 其 执行 ， 而 这 段 程序 的 操作 取决 于 虚拟 机 是 运行 在 系统 模式 还 是 用 户 模 式 。 

一 个 例子 就 是 System/370 中 对 LPSW 指令 的 硬件 支持 ， 如 在 8.2.1 节 讨 论 的 那样 ， 这 条 指 
令 在 用 户 模式 执行 会 触发 陷阱 操作 来 防止 用 户 对 特权 资源 (如 P 状态 位 ) 的 非法 访问 ， 而 使 用 
硬件 辅助 器 件 ， 硬 件 (通过 微 码 ) 会 检测 虚拟 机 状态 并 决定 执行 相应 的 操作 ， 如 果 处 于 系统 模 
式 则 执行 所 有 操作 ， 而 如 果 处 于 用 户 模 式 则 执行 限定 的 操作 。 如 果 相 关 的 虚拟 计算 机 资源 保存 
在 机 器 的 物理 资源 中 ， 如 通用 寄存 器 ， 则 通过 一 条 硬件 辅助 指令 来 修改 ; 否则 修改 内 存 中 保存 状 
态 表 的 相关 位 置 。 这 些 行为 和 VMM 仿真 这 条 指令 的 行为 是 一 样 的。 因此 硬件 辅助 部 件 依赖 于 虚 
拟 机 的 具体 实现 。 实 际 上 ， 虚 拟 机 辅助 部 件 的 实现 提供 了 一 个 额外 的 位 ， 控 制 寄存 器 6 的 bit 1, 
来 提供 客户 虚拟 机 是 运行 在 特权 模式 还 是 用 户 模式 的 相关 信息 。 

LPSW 仍然 是 一 条 特权 指令 ， 由 于 虚拟 机 运行 在 用 户 模式 下 的 ， 所 以 陷阱 操作 本 身 的 开销 没 
有 消除 。 但 是 LPSW 的 硬件 辅助 器 件 不 仅 减 少 了 仿真 LPSW 指令 的 时 间 ， 并且 消 除了 从 虚拟 机 
到 VMM 上 下 文 切换 的 开销 。 这 种 类 型 的 硬件 辅助 器 件 通 过 减少 VMM 实际 仿真 的 指令 数目 来 提 
升 了 系统 的 总 体 性 能 。 


8.5.3 VMM 辅助 手段 


提高 虚拟 机 环境 性 能 的 另 一 种 方法 就 是 使 用 辅助 器 件 来 改善 VMM 的 性 能 ， 这 里 列举 出 在 
System/370 中 使 用 的 这 类 辅助 手段 。 
e 上 下 文 切 换 (context switch): 在 虚拟 机 和 VMM 上 下 文 切换 时 使 用 硬件 来 保存 和 恢复 寄 
存 器 内 容 和 其 他 机 器 状态 。 
© 特权 指令 译 码 (decoding of privileged instructions); 我 们 在 前 面 提 到 过 ， 所 有 特权 指令 运 
行 在 虚拟 机 模式 时 都 会 触发 陷阱 操作 ， 然 而 它们 在 本 地 运行 时 只 有 在 用 户 模式 下 才 触 发 
陷阱 操作 。 由 于 特权 指令 很 少 使 用 在 用 户 模 式 代 码 中 ， 所 以 在 本 地 机 上 这 些 指 令 的 陷阱 
开销 并 不 是 很 明显 。 从 另 一 方面 来 说 ， 如 果 运 行 在 虚拟 机 模式 下 ， 即 使 在 客户 操作 系统 
运行 中 偶尔 遇 到 的 特权 指令 也 会 带 来 很 大 的 系统 开销 。 对 这 些 指令 的 译 码 通常 在 VMM 
软件 中 实现 ， 硬 件 辅助 部 件 译 码 可 以 很 好 地 减少 这 部 分 开销 。 请 注意 这 种 方式 和 前 面 提 
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到 的 指令 仿真 辅助 器 件 不 同 ， 它 只 帮助 实现 仿真 中 的 关键 部 分 ， 而 其 余部 分 的 仿真 仍 由 
软件 实现 。 
虚拟 间隔 计时 器 (virtual interval timers): 大 多 数 操作 系统 都 依赖 于 间隔 计时 器 来 调度 任 
务 ， 而 一 个 客户 操作 系统 无 法 仿真 出 与 本 地 模式 完全 相同 的 这 项 功能 ， 最 好 的 解决 方案 
就 是 VMM 根据 物理 计时 器 减少 的 值 估计 出 一 个 值 ， 并 从 虚拟 计数 器 值 减 去 该 值 ， 更 精 
确 的 计时 器 则 需要 硬件 支持 。VM/370 要 求 每 个 虚拟 机 的 虚拟 计时 器 都 必须 位 于 page 0 
的 地 址 80 ， 硬 件 则 保证 当 客 户 虚拟 机 运行 时 ， 真 实 计 时 器 递减 的 同时 该 位 置 的 值 也 同时 
递减 。 另 外 ， 当 虚拟 时 间 间 隔 计时 器 的 值 变 为 负数 时 ， 硬 件 辅助 器 件 将 向 虚拟 机 发 出 一 
个 计时 器 中 断 。 
扩展 指令 集 (adding to the instruction set): 为 了 提高 VMM 的 性 能 ，System/370 同时 引入 
了 一 些 机 器 ISA 以 外 的 新 的 特殊 指令 。 这 些 新 的 指令 完成 的 操作 性 质 是 特定 于 VM/370 
的 ， 因 为 它们 是 从 VM/370 的 常用 运行 部 分 分 析 得 出 的 ， 以 下 是 这 些 指 令 的 示例 : 

。 从 可 用 存储 区 获取 可 用 空间 

。 将 空间 返回 可 用 存储 区 

。 页 面 锁定 

e 页 面 解锁 

o He db bt ee IES D REN 

© 使 页 / 段 表 无 效 

VMM 能 够 通过 检查 控制 寄存 器 6 的 内 容 来 检测 一 个 具体 实现 中 是 否 存 在 这 些 指令 ， 该 寄存 
器 各 个 不 同 的 位 表明 了 哪些 辅助 指令 在 该 机 上 是 可 用 的 ， 假 如 某 条 特殊 指令 不 存在 ， 系 统 就 会 
忽略 该 指令 去 执行 原 有 的 相应 软件 程序 。 


8. 5.4 客户 系统 的 性 能 提升 


传统 的 虚拟 化 概念 假定 在 虚拟 机 环境 中 的 客户 系统 并 不 知道 它 运行 在 这 样 一 种 环境 下 ， 
VMM 的 工作 就 是 保证 特权 指令 的 执行 和 中 断 的 处 理 都 和 在 本 地 运行 时 一 样 。 这 个 需求 主要 是 为 
了 使 在 真实 机 器 上 运行 的 用 户 程序 能 够 不 做 任何 改变 就 在 虚拟 机 环境 下 运行 。 

从 另 一 方面 来 说 ， 假 如 一 个 客户 操作 系统 知道 自己 是 运行 在 本 地 模式 下 还 是 在 虚拟 机 环境 
中 ， 就 可 以 采取 手段 来 获得 一 些 性 能 的 提升 。 如 果 可 以 选择 ， 操 作 系 统 就 可 以 在 虚拟 机 中 运行 时 
执行 较 少 的 特权 指令 来 减少 性 能 的 损失 ; 或 者 当 操作 系统 感知 到 VMM 的 存在 时 ， 就 可 以 转交 一 
些 功能 给 VMM 执行 或 者 向 VMM 提供 其 执行 所 需 的 额外 信息 来 获取 性 能 的 提升 。 这 种 信息 交换 
BERR AEF (MacKinnon 1979) ， 握 手 是 和 硬件 辅助 协同 工作 的 编程 技术 。 在 System/370 中 实现 
握手 的 关键 特征 是 客户 操作 系统 可 以 给 VMM 发 送 消息 ,发送 消息 的 基本 技术 是 使 用 对 话 指令 
(DIAGNOSE) 。 定 义 了 不 同形 式 的 对 话 指令 ， 用 来 在 操作 系统 和 VMM 间 发 送 不 同类 型 的 消息 。 
对 话 指令 的 各 种 变 体 都 不 是 结构 化 的 ， 它 们 依赖 于 具体 的 实现 而 不 是 ISA 的 扩展 。 

许多 由 握手 技术 带 来 的 性 能 提升 都 包含 消除 了 操作 系统 和 VMM 间 的 重复 功能 。 我 们 在 下 面 
给 出 一 些 例子 。 

。 不 分 页 模式 (nonpaged mode): 客户 操作 系统 禁用 动态 地 址 转换 而 将 实际 地 址 空间 定义 

为 和 它 所 需 的 最 大 虚 地 址 空间 一 样 大 ， 因 此 虚 页 面 被 映射 到 固定 的 实 页 面 上 ， 但 从 实 页 
面 到 本 地 系统 的 物理 页 面 的 动态 映射 仍然 存在 ， 所 以 就 整个 系统 而 言 仍然 允许 动态 地 址 
转换 。 这 样 就 不 必 保存 两 级 映射 的 记录 ， 从 而 提高 了 性 能 。 进 一 步 而 言 ， 客 户 操作 系统 
不 再 需要 执行 请 求 分 页 ，VMM 将 系统 的 工作 集 作为 一 个 整体 来 管理 并 执行 请 求 分 页 ， 
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因此 这 种 设计 不 仅 消 除了 两 级 分 页 的 开销 ， 也 消除 了 客户 操作 系统 和 VMM 在 分 页 决策 
上 的 潜在 冲突 。 
伪 缺 页 处 理 (pseudo-page-fault handling): 像 前 面 讨 论 的 那样 ， 虚 拟 机 系统 中 缺 页 不 仅 可 
能 由 于 某 些 虚拟 机 缺 页 所 导致 ， 也 可 能 由 于 VMM 蔡 换 该 页 面 来 加 载 另 一 虚拟 机 页 面 所 
导致 。 在 传统 的 虚拟 机 系统 中 ， 在 后 一 种 类 型 缺 页 发 生 时 ，VMM 需要 停止 当前 运行 的 虚 
拟 机 而 激活 另 一 虚拟 机 ， 在 缺 页 处 理 完成 以 后 再 将 控制 权 交还 给 先前 的 虚拟 机 。 在 一 个 
伪 缺 页 处 理 中 ， 当 缺 页 是 由 于 在 VMM 的 页 表 中 缺少 相应 人 口 地 址 时 ，VMM 就 会 试图 改 
善 系统 的 公平 性 ， 将 控制 权 交 还 给 产生 缺 页 的 虚拟 机 ， 但 同时 给 出 一 个 特殊 的 缺 页 信息 ， 
而 允许 该 虚拟 机 调度 它 的 另 一 个 进程 。 这 在 客户 操作 系统 能 有 效 支 持 多 道 程序 并 且 有 足 
够 多 的 线程 来 掩盖 由 于 缺 页 带 来 的 延迟 时 很 有 有 用。 操作 系统 在 多 道 程 序 度 较 低 的 时 候 会 
禁止 这 项 功能 。 通 过 Set Pagex CP 这 个 特殊 命令 来 允许 伪 缺 页 处 理 。 
假 脱 机 文件 《spool files); 在 没有 使 用 其 他 特殊 机 制 的 情况 下 ， 虚 拟 机 上 的 客户 操作 系 
统 关闭 一 个 spool 文件 后 将 其 放 人 自己 的 spool 缓冲 区 ， 然 后 通过 发 射 IO 指令 来 将 缓冲 
区 中 的 每 个 文件 依次 发 送 给 WO 设备， 比如 打印 机 。 为 了 在 多 虚拟 机 使 用 同一 LO 设备 
的 时 候 也 能 正常 工作 ，VMM 就 需要 截获 每 个 虚拟 机 的 IO 请 求 ， 将 spool 文件 和 来 自 其 
他 虚拟 机 的 请 求 一 起 放 入 VMM 自己 的 spool 缓冲 区 ， 并 调度 它们 打印 。 与 其 采用 截获 
VO 命令 并 解读 为 某 虚 拟 机 将 发 送 一 个 任务 给 打印 机 的 方法 ， 不 如 通过 握手 的 技术 允许 
虚拟 机 通知 VMM 打印 机 文件 已 准备 好 ， 作 为 响应 ，VMM 获取 该 文件 (或 者 更 好 ， 是 该 
文件 的 指针 ) 并 和 前 面 一 样 将 其 放 入 自己 的 缓冲 区 。 
虚拟 机 间 通 信 (inter-virtual-machine communication) ; 这 里 所 针对 的 情况 是 在 两 个 虚拟 机 
间 传 送 数据 。 当 在 两 个 真实 机 上 传送 消息 时 ， 需 要 先 在 发 送 方 对 数据 包 逐 层 进行 处 理 ， 
随后 通过 物理 线路 传送 给 接收 方 ， 接 收 方 也 需要 相应 地 逐 层 处 理 后 才能 获取 消息 。 当 发 
送 方 和 接收 方 是 同一 平台 上 的 虚拟 机 时 ， 这 个 过 程 可 以 更 直接 、 更 简单 ， 因 此 也 更 快速 。 
在 System/370 中 ， 这 种 技术 是 通过 在 系统 中 支持 一 个 特殊 虚拟 机 来 实现 的 ,该 虚拟 机 上 
运行 的 特殊 操作 系统 称 为 远程 假 脱 机 通信 系统 (remote spooling communication system, 
RSCS) 。RSCS 使 用 属于 VMM 的 spool 缓冲 来 管理 要 发 送 给 平台 上 另 一 虚拟 机 的 数据 或 
缓存 将 要 通过 网 卡 发 送 给 远程 计算 机 的 数据 ， 然 后 使 用 更 高 效 的 方式 来 在 两 个 虚拟 机 间 
传送 消息 。 一 种 方式 就 是 使 用 被 称 为 通道 -通道 适配器 (channel-to-channel adapter, CT- 
CA) 的 虚拟 设备 来 实现 在 两 个 虚拟 机 间 的 数据 传输 ， 该 设备 使 用 低 开 销 的 传送 (move) 
操作 而 不 是 使 用 IO 操作 ; 另 一 种 方式 就 是 通过 虚拟 机 交互 设备 (virtual machine com- 
munications facility, VMCF) 来 同时 实现 一 个 虚拟 机 和 多 个 虚拟 机 的 数据 传输 ， 该 设备 使 
用 从 存储 到 存储 (storage-to-storage) 的 传输 。 这 种 类 型 的 技术 不 仅 减 少 了 虚拟 机 操作 的 
开销 ， 并 且 实 际 提 高 了 虚拟 机 间 通 信 的 性 能 。 

通过 修改 客户 操作 系统 提高 虚拟 机 系统 性 能 的 方案 近年 来 通过 半 上 唐 拟 化 〈paravirtualization ， 
Whitaker, Shaw 和 Gribble, 2002) 技术 得 到 了 新 的 关注 。 半 虚拟 化 向 系统 提供 了 一 个 类 似 但 不 
同 于 底层 硬件 的 虚拟 机 接口 ， 在 Xen 系统 (Barham 等 2003) 的 实现 中 半 虚 拟 化 接口 设计 主要 是 
针对 底层 ISA 难于 虚拟 化 的 部 分 ，Xen 系统 特定 于 IA-32 ISA， 前 面 我 们 已 经 了 解 到 IA-32 中 的 
关键 指令 使 得 很 难 设计 出 高 效 虚拟 机 。Xen System 采用 一 个 已 经 存在 的 操作 系统 ， 如 Linux 或 
Windows XP， 对 系统 中 依赖 于 机 器 的 那 部 分 进行 修改 ， 以 避免 一 些 复杂 的 虚拟 化 任务 ， 如 代 
码 检 测 和 修补 、 影 像 页 表 的 维护 等 。 例 如 Xen 利用 当前 流行 的 操作 系统 只 使 用 IA-32 的 ring 0 
和 ring 3 特权 级 ， 而 通过 修改 客户 操作 系统 使 其 运行 于 ring 1 级 。 通 过 要 求 操作 系统 内 的 特权 
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指令 必须 在 ring 0 级 的 VMM 中 验证 和 执行 实现 了 对 特权 指令 的 半 虚 拟 化 。Xen 的 目标 就 是 将 
修改 严格 控制 在 操作 系统 内 ， 使 得 应 用 程序 的 二 进 制 代 码 不 需要 改变 就 能 在 Xen 上 运行 ; 而 
Xen 的 研究 者 发 布 的 报告 表明 为 了 实现 半 虚 拟 化 对 Linux IA-32 所 做 的 代码 修改 不 超过 3000 
行 ， 只 占 全 部 代码 量 的 1. 36% ， 但 却 使 虚拟 机 系统 达到 了 本 地 Linux 实现 的 90 + % 的 所 有 标 
准 程序 性 能 。 


8.5.5 专用 系统 


如 果 VMM 能 够 了 解 或 者 访问 客户 操作 系统 的 内 部 信息 ， 那 么 就 还 能 获得 更 多 的 性 能 提升 ， 
这 种 情况 下 的 客户 操作 系统 不 是 一 个 私有 的 完全 封闭 的 黑匣子 。 接 下 来 我 们 将 讨论 此 类 性 能 提 
升 的 硬件 例子 (Gum 1983 ) 。 

。 虚实 相等 虚拟 机 (Virtual-equals-real (V = R) virtual machine) ;在 这 种 模式 下 ， 代 表 客 
户 实际 存储 器 的 主机 地 址 空间 和 主机 物理 存储 地 址 空间 是 一 一 对 应 的 ， 这 种 映射 的 一 个 
优点 就 是 在 通道 程序 需要 访问 大 规模 、 占 据 多 个 页 面 的 数据 时 能 提升 性 能 。 通 常情 况 下 ， 
虚拟 机 中 连续 的 实 页 面 并 不 需要 映射 到 物理 存储 器 中 连续 的 位 置 上 ， 因 此 那 种 大 规模 数 
据 访 问 的 通道 程序 必须 被 重新 翻译 为 多 个 通道 程序 ， 每 个 访问 一 段 连续 的 物理 地 址 空间 。 
而 V =R 映射 则 避免 了 这 种 重新 翻译 的 过 程 ， 因 此 减少 了 通道 程序 的 开销 。 
旁 路 影像 页 表 辅助 (Shadow-table bypass assist): 如 在 8.3 节 中 讨论 的 那样 ， 一 个 客户 机 
的 影像 页 表 和 真实 的 客户 页 表 是 不 同 的 ， 影 像 页 表 中 的 实际 地 址 指向 主机 物理 地 址 而 不 
是 客户 机 中 的 实地 址 ， 维 护 和 更 新 这 些 页 表 构 成 了 虚拟 机 系统 中 一 个 很 大 的 开销 。 而 这 
个 影像 页 表 可 以 省 却 ， 如 果 动 态 地 址 转换 硬件 能 够 直接 对 客户 页 表 进 行 操作 ， 那 么 客户 
页 表 就 能 直接 指向 物理 地 址 。 在 System/370 中 对 page 0 的 处 理应 单独 考虑 ， 因 为 该 页 被 
各 个 虚拟 机 明确 地 映射 ， 所 以 旁 路 影像 页 表 辅 助 在 硬件 实现 上 要 考虑 这 一 点 。 
优先 机 辅助 (preferred-machine assist): 这 种 辅助 技术 允许 客户 操作 系统 运行 于 系统 模式 
而 不 是 用 户 模式 ， 从 而 消除 了 客户 操作 系统 中 大 部 分 特权 指令 执行 所 需 的 特别 处 理 。 但 
这 种 方案 需要 特殊 的 硬件 支持 ， 因 为 即使 VMM 和 客户 操作 系统 运行 于 同一 模式 下 ， 也 
必须 保证 VMM 不 受 来 自 于 客户 操作 系统 的 有 意 无 意 地 自 改 ; 而 且 一 些 事件 也 需要 检查 
以 确定 它 的 目标 是 当前 运行 的 虚拟 机 、VMM 或 是 其 他 客户 虚拟 机 ， 比 如 一 个 WO 中 断 不 
能 注定 就 由 当前 客户 机 处 理 而 应 该 转 由 VMM 来 处 理 。 
FEE (segment sharing): 当 系 统 上 多 个 虚拟 机 运行 的 是 相同 的 客户 操作 系统 时 ， 可 以 
通过 在 虚拟 机 间 共 享 操作 系统 代码 段 的 方式 来 提高 系统 的 性 能 ， 只 要 操作 系统 的 代码 段 
是 可 重 和 的。 特别 在 代码 段 只 包含 只 读 信息 的 情况 下 ， 共 享 代码 段 能 大 大 减轻 系统 快 表 
的 压力 。 虽 然 现在 的 代码 大 多 数 都 是 可 重 入 的 ， 但 老 的 操作 系统 代码 却 经 常 不 是 这 样 ， 
它们 修改 代码 段 来 存储 小 段 数 据 或 者 改变 代码 行为 。 在 这 种 情况 下 的 共享 就 需要 VMM 
执行 昂贵 的 检查 以 确保 虚拟 机 不 要 使 用 被 其 他 虚拟 机 修改 过 的 代码 ，System/370 提供 了 
硬件 来 执行 这 种 段 保护 功能 从 而 避免 需要 软件 检查 。 

硬件 辅助 手段 通过 利用 特定 客户 系统 的 细节 信息 来 提高 其 性 能 ， 通 常 在 System/370 P, — 
个 特殊 的 硬件 辅助 手段 只 能 为 某 一 特定 的 客户 操作 系统 工作 ; 实际 上 取决 于 虚拟 机 的 特性 可 能 
有 同一 辅助 手段 的 不 同 版 本 。 一 些 特殊 的 硬件 辅助 手段 能 够 在 客户 操作 系统 的 可 访问 的 数据 结 
构 中 留 下 信息 ,告知 它 当 前 是 虚拟 模式 下 运行 而 不 是 本 地 和 运行。 虽然 就 其 自身 而 言 并 没有 值得 
关注 的 方面 ， 但 是 它 却 背离 了 初始 的 原则 : 虚拟 机 上 运行 的 软件 不 应 该 知道 也 就 不 应 该 利用 它 
不 在 本 地 运行 的 事实 。 
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8.5.6 虚拟 机 的 通用 支持 


随 着 虚拟 机 理论 的 成 功 ，IBM 开始 研究 正式 在 ISA 中 包括 那些 通常 能 提升 虚拟 机 性 能 的 特 
征 的 方法 ， 这 带 来 了 解释 执行 工具 (interpretive execution facility, IEF) 的 诞生 ， 它 为 处 理 器 提 
供 了 能 在 硬件 上 直接 执行 虚拟 机 大 部 分 功能 的 方法 ， 因 此 从 某 种 感觉 上 来 说 ,解释 执行 是 VM 
辅助 器 件 的 一 个 极端 情况 ， 就 是 几乎 所 有 的 指令 都 被 辅助 执行 。 除 了 对 虚拟 机 性 能 的 进一步 提 
升 ,解释 执行 有 利于 虚拟 机 运行 所 有 类 型 的 客户 操作 系统 ， 并 且 使 得 虚拟 机 程序 的 行为 在 不 同 
结构 和 实现 的 情况 下 更 具有 可 预测 性 。 

IEF 可 以 看 成 是 各 种 提升 虚拟 机 性 能 的 辅助 手段 的 透明 集成 ， 使 得 VMM 的 功能 在 软件 和 硬 
件 上 的 分 配 更 清晰 。 实 际 上 ， 传统 的 VMM 软件 部 分 通过 一 条 叫做 开始 解释 执行 〈start interpre- 
tive execution, SIE) 的 指令 来 将 控制 权 交 给 硬件 IEF 部 分 。 在 转交 控制 权 之 前 ， 它 要 处 理 所 有 
的 未 决 中 断 ， 决 定 下 一 个 被 调度 的 虚拟 机 ， 设 置 指针 指向 虚拟 机 的 结构 化 状态 表 ， 然 后 从 表 中 载 
入 相应 的 值 到 某 些 资源 〈 比 如 通用 寄存 器 ) o 

在 IEF 模式 下 ， 大 多 数 特权 指令 都 直接 在 硬件 上 运行 ， 需 要 注意 的 例外 是 YO 指令 和 一 些 更 
复杂 而 不 常用 的 指令 。 一 旦 IEF 获得 了 控制 权 ， 它 就 开始 执行 虚拟 机 上 的 指令 流 ， 并 直接 执行 大 
多 数 指令 并 对 其 他 指令 进行 硬件 解释 。 如 图 8-20 所 示 ， 存 在 着 两 种 方式 使 得 对 指令 的 硬件 解释 
可 能 被 暂停 而 将 控制 权 交 还 给 软件 部 分 。 


”VMM 软件 














解释 执行 模式 


中 断 返回 到 宿主 机 








| vv 
宿主 机 的 中 断 处 理 器 
图 8-20 解释 执行 的 进入 和 退出 。 热 行 一 条 SIE 指令 会 使 处 理 器 进入 解释 执行 模式 ， 而 从 该 模式 退出 
有 两 种 方式 ， 第 一 种 是 中 断 需要 被 主机 (host) 处 理 ， 则 中 断 处 理 后 机 器 返回 到 解释 执行 模 
式 ; 第 二 种 是 一 些 需要 某 些 VMM 服务 的 情况 ， 则 机 器 返回 到 SIE 指令 的 下 一 条 指令 

1. 一 个 由 IEF 硬件 产生 的 中 断 ， 目 标 是 VMM 或 者 另 一 个 虚拟 机 。 这 个 中 断 处 理 后 返回 到 由 

VMM 执行 的 SIE 指令 。 

2. 控制 权 传递 给 SIE 后 面 的 那 条 指令 。 这 也 被 称 为 截获 ， 它 发 生 的 原因 如 下 : 

a. 过 到 一 条 硬件 不 能 解释 的 指令 。 

b 在 指令 的 解释 执行 中 发 生 了 异常 。 

co 遇 到 一 条 被 强制 要 求 在 软件 中 处 理 的 指令 ， 如 在 传统 的 虚拟 机 系统 中 。 

d 检测 到 了 一 个 外 部 设置 的 截获 条 件 。 

e. 检测 到 了 一 些 特 殊 情 况 ， 比 如 客户 操作 系统 进入 了 等 待 状态 。 

在 将 控制 权 转 交 给 VMM 的 软件 部 分 前 ，IEF 硬件 必须 更 新 虚拟 机 的 状态 表 以 便 在 以 后 恢复 
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执行 该 操作 ， 同 时 还 必须 保存 将 控制 权 转交 的 原因 及 软件 仿真 所 需 的 相关 参数 。 

为 了 获得 好 的 性 能 ，IEF 依靠 在 这 节 前 面 讨论 的 许多 硬件 辅助 手段 。 通 过 特殊 硬件 辅助 手段 来 
实现 计时 器 和 系统 时 钟 ， 通 过 旁 路 技术 来 减少 存储 器 地 址 转换 开销 ，IEF 接近 达到 了 这 个 目标 : 在 
虚拟 机 上 运行 的 程序 性 能 大 致 接近 〈 只 略 低 于 ) 其 在 本 地 平台 运行 时 的 性 能 。 表 8-1 则 是 这 种 技术 
性 能 的 一 个 证 据 (MacKinnon 1979) ， 它 通过 对 三 种 System/370 体系 结构 的 不 同 实现 和 三 种 不 同 客 
户 操作 系统 : DOS/VS, OS/VS1 和 OSA/VS2 SVS 采用 硬件 辅助 技术 说 明了 性 能 的 提升 ， 从 表 中 我 
们 可 以 看 出 程序 的 虚拟 化 运行 与 本 地 运行 的 性 能 差异 在 采用 了 该 技术 后 明显 下 降 了 。 


表 8-1 IBM System/370 采用 硬件 VM Assists 技术 带 来 的 虚拟 机 性 能 提升 (MacKinnon 1979) 
























































Model 135 Model 145 Model 158 

DOS/vs | VSI DOS/VS VS1 vsi VS2 
本 机 2788 3035 2150 1418 1386 572 
运行 时 间 虚拟 机 8172 11598 4520 4089 3769 2696 
有 VM 辅助 的 虚拟 机 |] 4226 4063 2723 2024 2004 1149 
无 VM 辅助 0.34 0. 26 0. 48 0. 35 0. 37 0.21 

相对 批 吞吐 量 十 
有 VM 辅助 0. 66 0.75 0.79 0.7 0. 69 0.5 
使 用 VM Assist 减少 的 管理 状态 时 间 74% 89% 73% 86% 82% 69% 
使 用 VM Assist 减少 的 运行 时 间 48% 65% 40% 51% 47% 57% 
使 用 VM Assist 减少 的 对 VM/370 的 模拟 指令 数 | 87% 95% 86% 94% 91% 74% 


IEF 在 其 原型 基础 上 不 断 地 发 展 ， 越 来 越 多 的 功能 被 加 入 到 硬件 来 减少 支持 虚拟 机 所 需 的 系 
统 开销 ， 关 于 更 多 新 特性 的 详细 介绍 可 以 在 Osisek ，Jackson 和 Gum (1991) 中 找到 。 


8.6 案例 研究 : VMware 虚拟 平台 


一 个 在 基于 IA-32 的 PC 和 服务 器 上 流行 的 虚拟 机 平台 是 VMware 虚拟 机 平台 (VMware 2000) 。 
如 在 前 面 提 到 的 那样 ，VMware 系统 是 一 个 宿主 虚拟 机 系统 的 例子 。 最 近 VMware 在 VMware ESX 
Server 产品 中 包含 了 本 地 虚拟 化 结构 ， 声 称 能 提供 更 好 的 资源 控制 、 可 扩展 性 和 性 能 ， 但 却 必须 提 
供 对 所 有 硬件 类 型 的 完全 支持 。 我 们 在 这 里 的 讨论 只 限于 宿主 虚拟 机 系统 ， 最 近 已 被 重 命名 为 VM- 
ware GSX Server (VMware 2001) ， 随 后 我 们 将 列 出 开发 这 种 宿主 系统 而 不 是 本 地 系统 的 原因 。 

与 大 型 机 的 本 地 虚拟 机 架构 (如 VM/370) 相 比 ， 开 发 一 个 基于 商品 化 IA-32 环境 的 虚拟 机 
架构 面临 了 许多 挑战 。 

。 14-32 是 作为 一 款 便宜 的 微 处 理 器 而 开发 出 来 的 ， 并 未 考虑 到 使 用 在 支持 多 用 户 的 大 型 系 
统 中 ， 所 以 这 使 得 IA-32 有 许多 不 易 虚 拟 化 的 特征 ; 另 一 方面 A System/370 系列 产品 
一 开始 ，IBM 的 虚拟 机 系统 就 已 经 存在 ，IBM 的 结构 设计 小 组 和 VMM 设计 小 组 有 着 密 
切 的 交流 (因为 他 们 在 同一 公司 内 )， 所 以 他 们 在 设计 中 避免 了 很 多 会 阻碍 在 该 平台 上 
虚拟 机 开发 的 硬件 特征 。 
当前 商品 化 的 IA-32 环境 和 IBM System/370 环境 的 另 一 个 区 别 就 是 系统 结构 的 开放 性 ， 
这 导致 了 不 同 配置 的 PC 的 繁荣 。 因 此 ，VM/370 的 开发 人 员 只 需 搞 清楚 BM 出 售 给 用 户 
的 那些 系统 配置 即 可 ， 而 IA-32 VMM 的 开发 人 员 必 须 充分 估计 各 种 PC 系统 开发 商 提供 
给 用 户 的 无 数 种 配置 ， 如 果 再 考虑 到 用 户 可 添加 到 系统 中 的 不 同 LO 设备 的 激增 ， 情 况 
MEMMEN., 
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e VMware 作为 一 个 独立 于 硬件 厂商 (如 Intel) 和 操作 系统 开发 商 (如 Microsoft) 的 公司 ， 
会 面临 更 多 的 挑战 。 它 必须 保证 VMM 软件 能 够 容易 安装 并 使 用 。 特 别 是 它 不 能 期 望 用 
户 清 除 已 存在 的 操作 系统 后 再 安装 VMM， 然 后 再 在 VMM 上 重新 安装 老 的 操作 系统 。 实 

际 上 这 一 点 直接 影响 了 VMware 开发 的 VMM 的 体系 结构 。 
图 8-21 描述 了 VMware 虚拟 平台 的 用 户 视 图 ， 在 这 一 层 上 它 和 IBM System/370 的 用 户 视图 
相 类 似 ; 但 是 和 VM/370 是 本 地 虚拟 机 系统 不 同 ，VMware 是 一 个 宿主 虚拟 机 系统 ， 它 依赖 于 一 
个 已 经 存在 并 能 够 在 裸 机 上 执行 某 些 关 键 功能 的 客户 机 操作 系统 ， 如 Windows 或 者 Linux, MR 
们 在 8. 4. 3 节 看 到 的 那样 ， 采 用 一 个 宿主 系统 的 优点 就 是 VMM 只 需 很 少 的 工作 量 就 能 够 利用 宿 

主 操作 系统 支持 的 所 有 LO 设备 。 
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IA-32 硬件 系统 的 标准 用 户 视图 VMWare 系统 的 用 户 视图 
图 8-21 VMware 系统 的 用 户 视图 


如 在 8.4.3 节 讨 论 的 那样 ， 一 个 双 模 式 宿主 虚拟 机 系统 的 VMM 应 该 包含 三 个 组 件 : 
a) VMM-n， 工 作 在 本 地 特权 模式 下 的 组 件 ，b) VMM-u， 作 为 一 个 应 用 程序 在 宿主 操作 系统 上 
运行 的 组 件 ，c) VMM-d， 支 持 在 VMM-n 和 VMM-u 间 的 通信 的 组 件 。 在 VMware 系统 中 ， 这 
三 个 部 分 被 分 别 命名 为 VMMonitor, VMApp 和 VMDriver。 在 任何 时 刻 ， 处 理 器 只 运行 于 宿主 操 
作 系 统 环境 或 者 VMMonitor 环境 ， 在 两 者 之 间 的 状态 转换 需 借 助 于 VMDriver， 包 括 保存 和 恢复 
处 理 器 上 所 有 用 户 和 系统 可 见 的 状态 信息 。 作 为 与 图 8-21 所 示 的 用 户 视图 的 对 比 ， 图 8-22 给 出 
了 VMware 系统 的 结构 视图 。 
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图 8-22 VMware 系统 的 组 件 。VMMonitor 运行 于 特权 模式 ，VMDriver 是 安装 在 宿主 操作 系统 里 的 设备 
驱动 程序 ， 所 以 也 拥有 系统 特权 ， 而 VMApp 则 是 运行 于 宿主 操作 系统 上 的 用 户 模式 应 用 程序 
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尽管 IA-32 结构 提供 了 四 个 保护 等 级 ， 从 ring 0 到 ring 3, 但 大 多 数 基于 IA-32 的 操作 系统 都 
简单 地 将 内 核 和 服务 ， 包 括 设备 驱动 程序 纳入 ring 0， 所 以 实际 上 ， 完 全 可 以 认为 该 结构 拥有 一 
个 特权 级 ， 包 含 了 在 ring 0 里 运行 的 代码 ; 同时 还 拥有 一 个 用 户 级 ,包含 了 在 ring 3 里 运行 的 
代码 。 

VMMonitor 运行 在 特权 模式 下 ， 但 VMApp 作为 仅仅 需要 宿主 操作 系统 提供 服务 的 应 用 程序 
则 运行 在 用 户 模式 下 。 从 某 种 意义 来 说 ，VMMeonitor 能 将 自己 的 性 质 从 一 个 资源 的 特权 控制 者 
转变 为 宿主 操作 系统 上 的 一 个 应 用 程序 ， 这 一 点 通过 VMDriver 有 效 地 实现 了 。VMDriver 是 安装 
在 宿主 操作 系统 上 的 特殊 设备 驱动 ， 因 此 拥有 和 宿主 系统 一 样 的 特权 等 级 。 


8. 6.1 处 理 器 虚拟 化 


IA-32 结构 不 是 可 高 效 虚拟 化 的 ， 也 就 是 说 无 法 构造 严格 符合 8.2. 1 节 定 理 1 的 VMM, 一 
些 研究 人 员 (Robin 和 Irvine 2000) 已 经 指出 了 在 IA-32 中 存在 着 17 条 关键 指令 ， 即 不 是 特权 指 
令 的 敏感 指令 。 因 此 一 个 基于 IA-32 的 虚拟 机 系统 必须 是 一 个 混合 的 虚拟 机 系统 ，VMware 应 该 
包含 了 发 现 和 修补 这 些 关键 指令 的 机 制 ， 如 在 8.2.3 节 和 8.2.4 节 讨论 的 那样 。 

这 17 条 关键 指令 可 以 分 为 两 大 类 。 

© 保护 系统 引用 : 这 些 指令 引用 存储 保护 系统 、 存 储 器 系统 和 地 址 重 定位 系统 ， 而 存在 的 
隐患 就 是 虚拟 机 可 能 会 访问 并 不 在 它 的 虚拟 存储 器 中 的 位 置 。 一 个 例子 就 是 MOVE 指 
令 ， 比 如 它 将 一 个 通用 寄存 器 的 值 传送 到 CS 寄存 器 中 去 ， 而 CS 寄存 器 是 一 个 控制 寄存 
器 , TE bits 0 和 1 中 标记 了 当前 的 ring 值 。 为 了 提供 保护 ， 在 用 户 模式 下 运行 mov ax, cs 
之 类 的 指令 时 不 允许 加 载 值 到 cs 寄存 器 ， 但 也 不 触发 一 个 陷阱 操作 ， 而 是 产生 一 个 空 操 
作 ， 这 样 就 造成 了 该 指令 不 能 高 效 虚拟 化 。 
寄存 器 敏感 指令 : 这 些 指令 会 试图 读 取 或 者 改变 资源 相关 的 寄存 器 或 存储 位 置 的 值 ， 比 
如 时 钟 寄 存 器 或 者 中 断 寄 存 器 。 一 个 例子 就 是 8.2. 1 节 提 到 的 POPF 指令 ， 这 条 指令 从 内 
存 的 栈 顶 弹出 一 个 值 ， 将 堆栈 指针 加 2， 并 将 值 存储 到 EFLAGS 寄存 器 的 低 16 位 。 
EFLAGS 寄存 器 中 有 一 个 正 位 ， 即 中 断 人 允许 标志 ，POPF 在 用 户 模式 下 执行 时 该 标志 位 
不 改变 。 为 了 更 好 地 理解 为 什么 它 是 一 条 敏感 指令 ， 我 们 考虑 一 个 客户 操作 系统 执行 了 
POPF 指令 的 情况 ， 操 作 系 统 可 能 需要 改变 正 位 ， 但 如 果 它 运行 在 虚拟 机 的 用 户 模式 下 ， 
则 正 位 没有 被 改变 ， 而 此 后 操作 系统 则 可 能 因为 正 位 没有 按 预 想 的 改变 而 执行 了 错误 的 
行为 。 在 一 个 混合 虚拟 机 实现 中 ， 这 种 指令 将 会 被 VMM 发 现 ， 并 通过 修补 来 触发 一 个 
陷阱 操作 ， 随 后 VMM 的 陷阱 处 理 代码 就 仿真 执行 这 条 指令 并 完成 客户 操作 系统 期 望 的 
动作 。 

让 我 们 来 查看 一 下 虚拟 机 上 的 客户 操作 系统 要 使 用 一 条 关键 指令 时 所 发 生 的 情况 。 图 8-23 
给 出 了 基于 IA-32 的 一 段 真实 代码 片段 (Rosenblum 2000) ， 在 这 段 代码 中 ， 标 志 通 过 一 条 pushfd 
指令 保存 在 堆栈 上 ， 因 为 随后 执行 的 一 小 段 代 码 ， 可 能 会 改变 它们 的 值 。 这 样 在 随后 它们 被 恢复 
的 时 候 ， 这 些 标志 应 该 与 保存 在 堆栈 上 时 一 样 。 在 特权 模式 下 时 ， 使 用 popfd 指令 就 可 以 正确 恢 
复 寄存 器 的 状态 ， 但 是 当 这 段 代码 运行 在 用 户 模式 下 时 ， 如 在 虚拟 机 上 ， 并 不 是 所 有 的 状态 位 都 
能 正确 恢复 ， 除 非 该 指令 被 仿真 执行 。 

为 了 执行 这 种 仿真 ，VMIMonitor 对 当前 执行 的 指令 流 进行 扫描 ， 从 中 检测 出 popfd 指令 ， 然 
后 用 一 系列 指令 来 替换 它 ， 这 些 指令 使 处 理 器 进入 特权 模式 并 仿真 执行 popfd 指令 的 操作 。 模 拟 
包含 了 对 当前 操作 模式 的 检测 ， 并 根据 模式 来 选择 执行 popfd 两 种 行为 之 一 。 特 别 地 ， 当 虚拟 机 
本 身 欲 运行 于 系统 模式 时 ， 那 么 对 popfd 指令 的 仿真 就 必须 包括 加 载 EFLAGS 寄存 器 ， 更 精确 地 
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说 ， 是 属于 当前 运行 虚拟 机 的 虚拟 EFLAGS 寄存 器 。 另 一 方面 ， 假 如 虚拟 机 没有 运行 于 系统 模 
式 下 ， 仿 真 行为 就 必须 保证 不 会 修改 虚拟 EFLAGS 寄存 器 的 某 些 位 ， 如 正 位 。 

对 正 位 的 写 操作 必须 在 VMM 的 控制 下 
执行 ， 所 以 在 两 个 虚拟 机 上 下 文 切换 的 时 候 ， 


cax, (0x824) 


IF 标志 位 不 受 影 响 。VMM 为 每 个 虚拟 机 都 分 cax, 1 
配 了 一 个 存储 位 置 来 保存 EFLAGS 寄存 器 ， C0x900) ,cdx 
通过 指令 操作 内 存 中 的 这 些 虚拟 标志 来 仿真 





在 EFLAGS 寄存 器 上 的 操作 ， 而 不 是 直接 读 cdx, cax 

A EFLAGS 寄存 器 并 直接 在 其 上 修改 。 对 w823 使 用 popfd 指令 的 Intel IA-32 代码 示例 
EFLAGS 寄存 器 中 正 位 的 仿真 意味 着 任何 对 

它 进行 读 或 写 操作 的 指令 都 必须 被 仿真 执行 ， 如 图 8-23 中 的 cli 指令 ， 它 清除 了 中 断 标志 位 ， 所 
以 也 被 VMMonitor 仿真 执行 。 


8.6.2 输入 /输出 虚拟 化 


在 流行 的 基于 IA-32 的 硬件 平台 上 难于 虚拟 化 IO 设备 是 VMware 开发 者 选择 采用 双 模 式 宿 
主 虚 拟 机 模式 来 开发 VMM 的 主要 原因 。PC 平台 支持 了 比 其 他 任何 平台 都 多 的 硬件 设备 及 设备 
类 型 ， 这 就 造成 了 大 量 的 设备 驱动 程序 ， 它 们 可 能 由 不 同 工 业 部 门 提供 ， 如 硬件 开发 商 、 操 作 系 
统 开发 商 、 软 件 开 发 商 其 至 用 户 。VMware 采取 多 方面 综合 的 方法 来 解决 /WO 设备 的 虚拟 化 问题 
(Sugerman, Venkitachalam 和 Lim 2001) , 

VMMonitor 中 的 仿真 

第 一 种 VO 设备 的 虚拟 化 方法 是 在 VMMonitor 中 仿真 该 设备 。 如 果 被 虚拟 的 设备 在 主机 上 
有 对 应 的 硬件 设备 ， 则 仿真 化 工作 就 只 需 将 虚拟 设备 接口 (VDI) 中 的 某 些 参 数 转换 为 实际 硬件 
设备 接口 (HDI) 中 的 参数 。 这 样 ，in 和 out O 指令 将 被 VMMonitor 截获 并 转化 为 对 实际 物理 
设备 的 对 应 in 和 out 指令 ， 如 图 8-24。 一 个 原本 可 以 采用 这 种 方案 的 例子 是 将 从 IDE 设备 读 人 块 
的 命令 转化 为 从 SCSI 设备 读 人 块 的 命令 ， 但 是 ， 这 种 转换 不 仅 需要 知道 SCSI 驱动 的 端口 和 存储 
映射 信息 ， 而 且 还 需要 知道 在 客户 操作 系统 上 的 IDE 驱动 的 端口 和 存储 映射 信息 。 


VMware 的 开发 者 发 现 尽管 一 些 接 口 ， 如 DE 
VMM 中 的 IO 设备 模拟 器 





接口 ， 在 工业 界 很 好 地 实现 了 标准 化 ， 但 其 他 遵循 
如 SCSI、LAN 或 者 图 像 标 准 的 设备 在 具体 实现 上 
就 存在 着 差异 ， 对 这 些 接口 的 模拟 化 就 要 求 采取 不 





同 的 方式 。 对 于 输入 /输出 指令 ， 不 再 将 其 转化 为 硬件 设备 接口 ， 如 IDE, SCSI 
新 的 输入 /输出 指令 ， 而 是 将 其 转化 为 一 系列 对 宿 

图 8-24 在 VM 系统 平台 上 将 虚拟 
主 操作 系统 的 库 函 数 调用 ， 因 为 宿主 操作 系统 中 总 ate aerate aie 


是 已 经 提供 了 对 所 需 设备 驱动 的 支持 。 

图 8-25 说 明了 这 种 技术 。 这 种 方法 依赖 于 虚拟 平台 的 双重 特性 。VMMonitor 包含 了 每 个 虚 
拟 机 支持 的 设备 模型 ， 当 执行 一 条 客户 WO 指令 时 ， 就 会 触发 一 个 陷阱 并 将 控制 交 给 VMMonitor 
中 改变 请 求 设备 模型 状态 的 代码 。 如 果 所 请 求 设备 不 被 VMMonitor 本 地 支持 而 是 由 宿主 操作 系 
统 支 持 ， 那 么 请 求 就 被 转化 为 一 个 宿主 操作 系统 调用 。 例 如 ， 假 设 宿主 操作 系统 是 Windows NT, 
就 将 请 求 转化 为 一 个 win32 的 系统 调用 。 此 时 通过 VMApp, VMMonitor 作为 一 个 表现 良好 的 
Windows NT 应 用 程序 而 存在 。 当 系统 调用 返回 以 后 ， 控 制 就 交还 给 VMMonitor， 然 后 转交 给 虚 
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拟 机 上 的 应 用 程序 。VMMonitor 利用 这 种 方法 来 实现 软驱 、 光 驱 、 声 卡 、 串 口 和 并 口 的 虚拟 化 。 
从 真实 系统 的 性 能 评测 来 看 ， 这 种 从 一 种 模式 到 另 一 种 模式 的 切换 开销 只 需要 几 十 微 秒 。 


除了 减少 支持 1/O 设备 的 复杂 性 以 外 ，VMMonitor Pr Æ 虚拟 设备 接口 ， 如 
现 的 双重 特性 还 提供 了 其 他 一 些 好 处 。 读 磁盘 、 写 屏幕 
。 只 要 操作 系统 提供 了 一 套 执行 7O 的 合理 服务 ， 那 么 } 










这 个 操作 系统 就 可 以 作为 宿主 操作 系统 ， 而 它 所 支持 
的 所 有 设备 将 会 自动 对 VMMonitor 可 用 。 

。 VMMonitor 对 宿主 操作 系统 的 访问 可 以 不 局 限于 IO 

VMApp 中 的 IO 

Monitor 使 用 ， 因 为 安装 在 宿主 操作 系统 上 的 VM- 
Monitor 就 和 其 他 所 有 应 用 程序 一 样 。 特 别 地 ， 它 可 

。 当 从 一 个 旧 操作 系 统 过 滤 到 一 个 新 操作 系统 时 ， 可 以 如 图 形 语言 命令 
让 旧 操作 系统 作为 宿主 而 让 新 操作 系统 工作 在 虚拟 


方面 ,宿主 操作 系统 提供 的 一 切 服 务 都 可 以 被 VM- 
以 利用 宿主 操作 系统 的 文件 系统 来 模拟 磁盘 。 OS 接口 命令 ， 
机 上 ， 这 样 在 过 渡 时 期 内 性 能 关键 的 应 用 可 以 直接 在 


宿主 机 上 运行 。 
利用 抽象 层 的 设备 新 功能 
VMApp 有 能 力 在 物理 层 上 插入 一 个 抽象 层 ， 这 就 允许 AEN, 


整合 开发 出 一 些 在 原始 设备 上 不 易 或 不 能 开发 的 新 功能 。 例 
如 ，VMware 虚拟 机 中 的 磁盘 既 可 以 被 当 作 一 个 原始 磁盘 也 图 $25 使 用 操作 系统 库 函 数 接口 来 
可 以 被 当 作 宿主 操作 系统 的 一 个 文件 ， 在 后 一 种 情况 下 ， 它 将 庶 氢 设备 接口 映射 到 硬件 
可 以 成 为 一 个 可 撤消 操作 的 磁盘 ， 最 近 在 它 上 面 进行 的 操作 设备 接口 

可 以 被 撤消 ; 从 而 也 允许 引入 提交 机 制 来 保存 或 撤销 整个 对 话 ， 该 机 制 在 对 话 结束 时 执行 显 式 
的 磁盘 写 人 确认 操作 ， 这 种 能 力 非常 有 用 ， 尤 其 是 对 一 个 测试 对 话 或 者 由 于 非法 访问 而 需要 撒 
消 对 话 的 情况 。 

抽象 层 也 提供 了 一 种 减少 由 虚拟 化 引起 的 性 能 损失 的 方法 。 例 如 ，VMware 通过 在 虚拟 NIC 
和 物理 NIC 间 提 供 一 个 虚拟 以 太 网 交换 实现 了 多 个 虚拟 机 对 物理 NIC 的 共享 ， 这 和 图 8-19 中 描 
述 的 类 似 。 不 同 的 IP 地 址 被 分 配给 不 同 的 虚拟 机 ， 各 个 共享 物理 NIC 的 虚拟 机 可 以 通过 这 个 虚 
拟 LAN 彼此 通信 ， 其 通信 方式 和 真实 机 器 间 通过 传统 LAN 网 络 互 连 的 方式 完全 一 样 ， 但 虚拟 机 
间 的 通信 延迟 可 能 会 比 物理 网 络 上 小 ， 因 为 LAN 是 通过 使 用 特殊 的 局 部 通信 路 径 来 模拟 的 ， 比 
标准 的 以 太 网 路 径 更 高 效 。 

另 一 种 类 型 的 抽象 则 通过 VMware 提供 的 可 选用 户 界面 来 说 明 。 一 般 来 说 ， 用 户 接口 控制 如 
显卡 、 键 盘 和 鼠标 等 设备 的 虚拟 化 方式 和 其 他 物理 资源 (如 通用 寄存 器 ) 的 虚拟 化 方式 一 致 ， 
一 个 虚拟 总 用 户 就 和 在 真实 机 上 一 样 对 这 些 设备 直接 控制 ， 所 以 显示 器 的 整个 屏幕 都 能 被 虚拟 
机 所 控制 。 另 外 ，VMware 还 提供 了 在 宿主 操作 系统 的 用 户 界面 上 以 窗口 的 形式 显示 虚拟 机 用 户 
界面 的 功能 ， 比 如 在 Windows 桌面 上 的 一 个 窗口 。 这 种 方式 让 用 户 可 以 方便 地 在 两 个 不 同 的 平 
台 上 同时 访问 应 用 程序 ， 而 通过 在 VMMonitor 和 宿主 操作 系统 间 采 用 特殊 的 交互 手 艘 ， 甚 至 可 
以 实现 在 主机 窗口 和 虚拟 机 上 应 用 程序 间 的 剪 切 和 粘贴 操作 。 


8.6.3 存储 器 虚拟 化 
通过 使 用 宿主 操作 系统 来 分 配 和 释放 真实 机 器 上 的 物理 内 存 ，VMMonitor 实现 了 对 虚拟 机 
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物理 内 存 的 虚拟 化 。 尽 管 由 宿主 操作 系统 来 负责 给 各 个 虚拟 机 分 配 物 理 页 面 ， 但 仍 由 客户 操作 


系统 处 理 按 需 页 面 调度 请 求 。 分 页 请 求 不 会 被 VMM 直接 截获 ， 而 是 由 客户 操作 系统 按照 与 真实 


计算 机 相同 的 方式 将 其 转化 为 磁盘 读 写 操作 ， 这 些 读 写 操 作 被 VMMonitor 翻译 为 对 宿主 操作 系 
统 的 请 求 并 通过 VMApp 发 送 ， 这 些 请 求 随 后 经 过 VMDriver 处 理 后 作为 对 宿主 操作 系统 的 一 个 
Kik DMA 请 求 。 宿 主机 上 应 用 程序 的 行为 决定 了 这 个 DMA 请 求 可 以 在 主机 的 物理 存储 器 中 满 
足 还 是 将 引起 主机 的 页 面 调 度 操作 。 宿 主机 上 标准 的 替换 策略 可 能 会 导致 对 关键 页 面 的 替换 ， 
因此 在 有 其 他 宿主 机 应 用 程序 同时 运行 时 就 会 降低 虚拟 机 系统 的 性 能 。 为 了 缓解 这 个 问题 ，VM- 
Driver 将 虚拟 存储 系统 中 的 一 些 关 键 页 面 固定 在 物理 内 存 中 ,特别 是 属于 VMMonitor 的 当前 工作 
集 的 那些 页 面 。 


8.7 案例 研究 : Intel 的 VT-x (Vanderpool) 技术 


在 8.6 节 对 VMware 的 介绍 中 ， 我 们 说 明了 在 虚拟 化 IA-32 结构 的 过 程 中 存在 的 一 些 问题 ， 
也 介绍 了 VMware GSX 服务 器 通过 采用 宿主 虚拟 机 系统 的 方法 来 解决 这 些 问题 。 但 是 各 种 不 同 
实现 虚拟 化 的 技术 最 终 都 要 付出 一 定 的 代价 一 一 代码 的 复杂 度 和 性 能 开销 ， 其 中 的 一 些 开 销 ， 
特别 是 对 代码 扫描 和 修补 以 处 理 指令 集中 关键 指令 所 造成 的 开销 ， 在 本 地 虚拟 机 实现 如 VMware 
ESX 服务 器 中 仍然 存在 。 这 就 是 当前 半 虚 拟 化 潮流 的 缘由 ， 它 提供 了 一 个 和 底层 硬件 结构 相似 
但 不 相同 的 简单 接口 来 尽量 消除 关键 指令 的 影响 。 

即使 在 半 虚 拟 化 中 ，VMM 对 敏感 指令 的 处 理 开销 仍然 存在 。 在 8.5 节 中 ， 我 们 讨论 了 许多 
通过 硬件 手段 改进 处 理 器 来 加 速 虚拟 化 的 方法 ， 如 VM 辅助 器 件 和 解释 执行 能 力 ( 正 ) 在 IBM z 
系列 大 型 机 上 的 2/VM 系统 中 就 起 到 了 明显 提高 性 能 的 效果 。Intel 最 近 开 发 了 一 种 针对 IA-32 处 
FRESH) VT-x， 即 Vanderpool ER, CRF IBM 的 下 技术， 主要 是 用 来 提升 IJA-32 平台 上 的 虚 

VT-x 的 主要 特征 就 是 包含 了 一 种 新 的 VMX 操作 模式 ,在 VMX 模式 下 ， 处 理 器 可 处 于 
VMX root 操作 状态 或 者 VMX non-root 操作 状态 。 在 这 两 种 情况 中 ，IA-32 的 所 有 4 种 特权 等 级 
(ring) 都 能 被 软件 使 用 。 实 际 上 VT-x 为 客户 软件 的 运行 提供 了 4 种 新 的 等 级 略 低 的 特权 等 级 ， 
而 为 VMM 提供 了 通常 的 4 种 特权 等 级 。 在 VMX root 操作 状态 中 的 处 理 器 行为 和 没有 采用 VT-x 
技术 的 正常 处 理 器 行为 相似 ， 主 要 的 不 同 点 是 包含 了 一 些 新 的 VMX 指令 ; 而 为 了 支持 虚拟 化 ， 
处 于 VMX non-root 操作 状态 中 的 处 理 器 行为 在 某 些 方面 受到 限制 ， 即 关键 的 共享 资源 必须 在 运 
ITF VMX root 操作 状态 的 监控 器 的 控制 之 下 ， 这 种 对 资源 控制 的 限制 对 non-root 操作 状态 下 的 
所 有 特权 等 级 都 有 效 ， 包 括 ring 0， 尽 管 在 普通 处 理 器 中 它 是 最 高 权限 等 级 。 所 以 这 样 做 的 意图 
就 是 使 得 虚拟 机 系统 的 VMM 运行 于 VMX root 操作 状态 ， 而 虚拟 机 本 身 ， 包 括 客 户 操作 系统 和 
应 用 软件 则 运行 于 VMX non-root 操作 状态 。 因 为 VMX non-root 操作 状态 包括 了 IA-32 的 4 个 特 
权 等 级 ， 所 以 客户 软件 就 可 以 在 原本 的 权限 等 级 里 运行 〈 比 如 客户 操作 系统 运行 于 ring 0 而 客户 
应 用 程序 运行 于 ring 3) 。 


8.7.1 技术 概述 


图 8-26' 给 出 了 虚拟 机 系统 中 的 典型 操作 序列 。 一 个 运行 于 普通 模式 下 的 处 理 器 可 以 通过 发 
射 一 条 vmxon 指令 来 使 其 进入 VMX root 操作 状态 ， 在 VMX root 操作 状态 下 运行 的 VMM 则 为 
各 个 虚拟 机 设置 运行 环境 ， 并 通过 发 射 一 条 vmlaunch 指令 来 初始 化 虚拟 机 ; 在 一 些 情 形 下 ， 特 
别 是 试图 重新 配置 各 个 虚拟 机 间 共 享 的 或 者 与 VMM 共享 的 资源 时 ， 处 理 器 会 放弃 控制 并 交 给 在 
VMX root 操作 状态 下 的 VMM ， 处 理 器 也 可 以 显 式 地 通过 一 条 vmcall 指令 来 退出 虚拟 机 。 重 新 
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进入 先前 已 初始 化 的 虚拟 机 则 可 以 通过 一 条 低 开销 的 vmresume 指令 来 完成 ， 它 将 处 理 器 重新 置 
于 VMX non-root 操作 状态 。 因 此 ， 在 稳定 情况 下 ， 处 理 器 应 该 大 部 分 时 间 都 工作 在 VMX non- 
root 操作 状态 ， 只 有 偶尔 才 会 进入 VMX root 操作 状态 下 的 VMM。 最 后 ， 当 处 理 器 要 退出 VMX 
操作 时 ， 它 要 依次 关闭 其 上 的 虚拟 机 并 通过 发 射 一 条 vmxoff 指令 来 返回 普通 模式 。 


vmlaunch vmiaunch vmresume ymresume vmresume 
vmxon VMI ¥M2 VM2 VM2 VM1 vmxoff 








正常 | mex FR RR | canes E% 
模式 “| (VMM) CVMI) (VM2) 1 | 模式 
VW1 VM2 VM2 VM2 VM1 
exits exits exits exits exits 


图 8-26 ”使 用 Intel VT-x 技术 在 操作 阶段 间 的 转换 。 白 色 的 区 域 代表 VMM 在 root 模式 下 的 
操作 ， 而 交叉 阴影 和 黑 点 的 区 域 代表 两 个 活动 虚拟 机 的 运行 时 段 


这 是 关于 在 VT-x 使 能 的 IA-32 处 理 器 上 建立 虚拟 机 系统 的 概要 介绍 ， 在 虚拟 机 加 载 和 退出 
过 程 中 还 有 很 多 需要 考虑 的 地 方 ， 有 兴趣 的 读者 可 以 参见 文献 mtel's Preliminary Specification X 
件 (2005) 中 关于 该 技术 的 更 多 细节 ， 而 我 们 的 讨论 则 集中 于 该 技术 中 的 基本 概念 。 


8.7.2 技术 能 力 


VT-x 技术 能 提升 虚拟 机 系统 性 能 的 关键 是 不 必 让 所 有 的 客户 代码 都 运行 在 用 户 模式 下 ， 这 一 
点 是 通过 专门 为 VMM 和 超级 管理 者 提供 一 种 新 的 操作 模式 来 实现 的 。 对 于 不 包含 影响 任何 关键 共 
享 资源 的 指令 的 代码 段 ， 硬 件 会 像 在 普通 机 器 上 一 样 高 效 地 执行 它 ; 由 于 硬件 记录 了 活动 虚拟 机 的 
相关 信息 ， 甚 至 可 以 通过 临时 将 共享 资源 映射 到 虚拟 机 中 的 相关 资源 的 方式 来 全 速 执行 更 大 的 代码 
段 。 只 有 在 很 少 一 些 无 法 这 样 做 的 情况 下 ，VMM 才 需 要 执行 一 定 程度 的 代码 模拟 。 因 此 一 旦 进入 
虚拟 机 ， 在 硬件 虚拟 化 中 的 退出 次 数 会 大 大 少 于 其 在 软件 虚拟 化 中 的 退出 次 数 。 

软件 解决 方案 的 另 一 个 主要 开销 来 自 于 对 状态 信息 的 维护 。 在 软件 中 可 以 采取 多 种 技术 ， 
特别 是 通过 将 常用 寄存 器 映射 到 硬件 寄存 器 单元 来 减少 状态 维护 和 改变 的 开销 。VT-x 技术 提供 
了 硬件 结构 ， 允 许 在 虚拟 机 运行 时 将 几乎 所 有 保存 状态 信息 的 数据 单元 直接 映射 到 它们 的 本 地 
结构 。 进 一 步 而 言 ， 它 提供 了 一 个 形式 化 的 数据 结构 一 一 虚拟 机 控制 结构 (virtual machine con- 
trol structure, VMCS) 来 封装 所 有 虚拟 机 需要 维护 的 信息 ， 硬 件 实现 能 够 代替 从 物理 存储 位 置 读 
取 和 加 载 数 据 的 任务 ， 从 而 避免 了 VMM 在 大 量 数据 上 执行 昂贵 的 读 取 和 保存 操作 。 

这 样 VT-x 技术 就 能 明显 减少 了 经 典 本 地 虚拟 机 系统 的 开销 ， 它 还 避免 了 对 半 虚 拟 化 的 需 
要 ， 从 而 允许 在 虚拟 机 系统 中 使 用 更 标准 的 操作 系统 版 本 。 而 被 VMX non-root 操作 状态 的 客户 
用 来 和 VMX root 操作 状态 下 VMM 通信 的 vmcall 指令 ， 能 够 作为 一 种 技术 手段 来 为 VMM 提供 
更 多 的 信息 和 数据 以 帮助 其 对 资源 做 出 更 智能 的 分 配 。 

VT-x 技术 也 能 用 于 构建 宿主 虚拟 机 系统 。 因 为 VMX root 操作 已 经 设计 成 尽 可 能 接近 处 理 器 
的 正常 操作 ， 这 样 就 可 以 采用 一 个 宿主 操作 系统 的 标准 实现 并 使 其 运行 于 VMX root 操作 状态 ; 
而 VMM 也 同样 运行 于 VMX root 操作 状态 ， 拥 有 和 宿主 操作 系统 一 样 的 运行 环境 和 权限 等 级 ， 
就 像 VMware 等 典型 的 宿主 虚拟 机 实现 中 一 样 。 

VMware GSX 服务 器 采用 宿主 虚拟 机 系统 的 一 个 重要 原因 就 是 需要 虚拟 化 IA-32 PC 平台 上 
现存 的 大 量 设 备 和 驱动 程序 。 这 个 需求 在 VT-x 中 同样 存在 ，VT-x 技术 并 不 着 眼 于 IO 设备 的 虚 
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拟 化 。 还 必须 注意 到 VMX root 操作 和 在 处 理 器 上 的 通常 操作 并 不 是 完全 等 价 的 ， 对 VMX 操作 
有 一 些 额外 的 限制 ， 比 如 不 能 重 设 CRO. PE 位 和 CPO. PG 位 的 值 为 0， 这 样 就 禁止 了 在 VMX 操 
作 状 态 下 的 宿主 操作 系统 运行 于 未 分 页 保护 模式 或 者 实地 址 模式 。 现 在 的 很 多 应 用 程序 都 不 会 
受 这 个 限制 的 影响 ， 但 在 一 个 遗留 的 老 系统 中 必须 提供 对 这 些 模式 的 支持 ， 可 以 由 VMM 模拟 执 
行 ， 或 者 在 使 用 vmxoff 指令 系统 退出 VMX 操作 状态 后 在 正常 模式 下 运行 。 


8.7.3 状态 信息 的 维护 


现在 我 们 把 注意 力 转 移 到 VT-x 中 的 状态 信息 维护 上 来 。 如 前 面 所 述 ， 虚 拟 机 的 状态 都 在 
VMCS 数据 结构 中 维护 ， 这 个 专用 的 数据 结构 拥有 精确 定义 的 一 些 域 ， 并 且 只 能 在 root 操作 状 
态 下 通过 硬件 或 者 软件 来 操作 。 当 前 运行 虚拟 机 的 VMCS 通过 一 个 VMPTR 指针 来 指定 ， 该 指针 
包含 4KB 边界 对 齐 的 VMCS 物理 存储 地 址 。 对 应 不 同 虚拟 机 的 多 个 YMCS 结构 都 能 被 激活 ， 但 
每 次 只 允许 一 个 结构 在 给 定 的 逻辑 处 理 器 上 运行 〈 在 多 线程 系统 中 可 能 会 有 多 个 逻辑 处 理 器 ) 。 
VMPTR 指针 可 以 由 在 root 操作 状态 下 的 vmptrld 指令 来 进行 修改 ， 类 似 地 ，VMCS 内 容 也 只 能 
由 在 root 操作 状态 下 的 vmread 和 vmwrite 指令 来 访问 。 通 常 的 访 存 操作 指令 不 能 访问 VMCS 中 
的 数据 ， 因 为 存储 VMCS 的 格式 不 是 结构 化 的 ， 并 且 在 不 同 的 具体 实现 中 是 不 同 的 。 

K 8-2 给 出 了 在 VMCS 中 保存 的 各 种 不 同 种 类 的 信息 。 为 客户 机 和 宿主 机 保存 的 状态 信息 不 
再 局 限于 传统 的 结构 状态 ， 还 包括 了 像 段 寄存 器 等 结构 隐藏 部 分 的 信息 ， 在 保持 虚拟 机 上 的 程 
序 执行 行为 与 普通 机 上 的 执行 行为 一 致 时 需要 这 些 信息 。 不 同 的 控制 域 则 决定 了 在 什么 条 件 下 
控制 权 离开 虚拟 机 并 转交 给 VMM， 也 定义 了 在 VM 进入 和 VM 退出 时 应 执行 的 操作 。 例 如 ， 由 
于 处 理 器 的 MSR 寄存 器 (model-specific register) 是 依赖 于 实现 的 ， 所 以 VMCS 中 的 一 个 控制 域 
就 决定 了 在 虚拟 机 退出 时 有 多 少 型 号 特定 的 寄存 器 应 该 被 保存 ， 而 另 一 个 控制 域 则 决定 了 这 些 
寄存 器 的 物理 保存 地 址 。 


表 8-2 存储 在 虚拟 机 控制 结构 (VMCS) 中 的 信息 
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控制 域 VM 退出 控制 AEE 
控制 位 图 
VM 进入 控制 MSR 控制 

| 事件 引发 的 控制 

- VM 退出 信息 

anna 基本 信息 向 量化 事件 信息 

日 心 良 出 信 eT 

其 余 退 出 信息 取决 于 指令 执行 


VMCS 的 一 个 重要 组 成 部 分 就 是 VM-exit 信息 区 ， 它 包含 了 一 些 域 来 通知 VMM 此 次 退出 的 
原因 和 为 了 服务 引起 此 次 退出 的 事件 所 必需 的 一 些 信息 。 

指令 也 可 以 引起 退出 事件 ， 可 能 是 无 条 件 地 ， 比 如 不 能 在 non-root 操作 状态 执行 的 指令 ; 也 
可 能 是 有 条 件 地 ， 如 rdtsc 指令 在 控制 位 “RDTSC Exiting” 被 设置 后 将 引起 一 个 退出 事件 。 在 相 
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关 规 范文 挡 (Intel 2005) 中 有 对 这 些 控制 位 的 详细 描述 ，VMM 可 以 通过 这 些 控制 位 来 设置 具有 
不 同行 为 的 虚拟 机 。 
8.7.4 例子 : rdtsc 指令 
我 们 通过 演示 硬件 是 如 何 支持 虚拟 机 执行 读 取 时 间 惟 计数 器 指令 (“Read Time-Stamp Count- 
er”, rdtsc) 的 过 程 来 结束 本 小 节 。 根 据 IA-32 结构 的 定义 ， 时 间 惟 计数 器 被 保存 在 名 叫 IA32_ 
TIME_STAMP_COUNTER 的 MSR 中 rdtsc 指令 的 执行 将 把 该 寄存 器 中 64 位 的 值 移 人 一 对 特定 
的 通用 寄存 器 中 。 但 是 如 果 控 制 寄存 器 CR4 中 的 TSD (Time-Stamp-Disable) (ZARB ARMS M 
级 不 是 0， 就 会 引起 一 个 保护 模式 的 异常 ， 而 不 再 读 取 该 计数 器 。 天 


343] rdtse 指令 


机 器 处 于 Yes 





执行 正常 操作 


保护 例外 ， 检 查 
VM 运行 控制 域 
中 的 例外 位 图 





Yes Yes 


No 保存 退出 将 TSC 偏 移 
信息 量 加 到 时 间 
退出 VM BLT BaF 


将 例外 传 给 客户 机 ”将 控制 权 返 回 给 VMM 返回 和 B EIR ER 
计数 器 值 





图 8-27 BBY rdtsc 指令 时 硬件 的 执行 动作 
图 8-27 为 处 理 该 过 程 中 不 同情 况 的 程序 流程 图 。 硬 件 首先 检查 映射 到 当前 活动 虚拟 机 CRA 


寄存 器 的 物理 CR4 寄存 器 中 的 TSD 位 ， 假 如 该 TSD 位 被 设置 且 特 权 等 级 不 是 0， 就 在 客户 机 上 
导致 一 个 保护 模式 异常 。 然 后 硬件 会 直接 检查 异常 位 图 (Exception Bitmap) ， 该 位 图 位 于 当前 执 
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行 虚 拟 机 VMCS 中 的 虚拟 机 执行 控制 区 ( Processor-Based VM-Execution Controls area) ， 它 是 一 
个 32 位 的 向 量 ， 每 一 位 对 应 一 种 IA-32 异常 。 如 果 对 应 于 前 面 所 提 的 保护 模式 异常 的 位 被 设置 ， 
硬件 就 会 强制 虚拟 机 退出 而 让 VMM 执行 相应 动作 ; 如 果 没 有 ， 该 异常 就 被 直接 传递 给 客户 ， 就 
和 运行 于 普通 模式 的 处 理 器 中 一 样 。 这 样 硬件 就 避免 了 在 软件 VM 实现 中 通过 VMM 来 截获 异 
常 、 检 查 它 并 将 其 返回 客户 操作 系统 所 带 来 的 开销 。 

假如 TSD 位 没有 被 设置 或 者 特权 等 级 为 0， 硬 件 就 接着 检查 位 于 该 虚拟 机 VMCS 中 的 虚拟 
机 执行 控制 区 中 另 一 域 的 “RDTSC Fxiting” 位 ， 假 如 该 位 被 设置 ， 则 发 生 虚 拟 机 退出 (VM-ex- 
it) 事件 并 将 控制 权 转 交 给 VMM 来 模拟 实现 指令 请 求 的 行为 。 

假如 该 “RDTSC Exiting” 位 为 0， 处 理 器 将 检查 在 同一 区 中 的 “Use TSC Offsetting” 位 。 
假如 该 位 为 0， 则 返回 物理 IA32_TIME_STAMP_COUNTER 寄存 器 中 的 真实 值 ; 如 果 为 1， 则 不 
会 直接 返回 物理 计数 器 的 值 ， 而 是 将 其 与 存储 在 该 虚拟 机 VMCS 的 虚拟 机 执行 控制 区 中 “TSC 
Offset” 域 的 值 相 加 后 返回 。 这 种 模式 使 得 VMM 能 近似 估计 出 虚拟 机 中 的 各 种 不 同行 为 ， 例 如 
VMM 能 够 在 VM-entry 和 VM-exit 时 使 用 物理 计数 器 的 值 来 存储 一 个 TSC Offset 值 ， 该 值 为 处 理 
器 向 虚拟 机 报告 的 活动 周期 数 。 

通过 这 个 例子 ， 我 们 说 明了 通过 使 用 控制 位 而 带 来 的 操作 灵活 性 ， 即 允许 在 不 引 人 软 件 额 
外 开销 的 情况 下 实例 化 不 同行 为 的 虚拟 机 。 当 然 如 果 需 要 一 个 更 为 精细 的 行为 ， 就 必须 执行 一 
个 虚拟 机 退出 (VM-exit) 事件 然后 由 VMM 来 实现 请 求 的 行为 。 


8.8 总 结 


系统 虚拟 机 在 20 世纪 70 年 代 到 80 年 代 受 到 了 广泛 的 欢迎 ,但 在 九 十 年 代 ， 由 于 单 用 户 计 
算 机 的 价格 下 降 到 了 一 个 可 接受 的 程度 ， 系 统 虚 拟 机 便 渐渐 不 再 受到 欢迎 。 最 近 它 又 迎 来 了 一 
次 复兴 ， 特 别 是 在 Web 服务 领域 ， 它 需要 大 量 的 相互 闻 很 少 通信 而 又 共享 存储 资源 的 简单 单线 
程 系统 。 对 这 些 应 用 来 说 ， 虚 拟 机 能 够 比 大 的 处 理 器 机 群 更 好 地 利用 处 理 器 资源 ， 同 时 还 减少 了 
管理 开销 ， 因 为 启动 和 关闭 虚拟 机 的 过 程 相 对 于 安装 和 移出 真实 机 器 的 过 程 是 微不足道 的 。 

尽管 虚拟 机 技术 流行 的 原始 驱动 力 是 在 多 个 用 户 共享 一 个 复杂 系统 时 提供 每 个 用 户 完全 拥 
有 该 系统 的 虚拟 映像 ， 但 虚拟 机 未 来 的 发 展 动力 可 能 来 自 于 其 他 方面 。 如 我 们 将 在 第 10 章 看 到 
的 那样 ， 已 经 出 现 了 一 些 新 的 问题 ， 如 安全 和 系统 封装 ， 还 有 一 些 新 的 模型 ， 如 Grid， 就 很 有 可 
能 进一步 推动 虚拟 机 技术 的 应 用 。 


BIS 多 处 理 器 虚拟 化 


今天 的 很 多 计算 机 系统 ， 尤 其 是 服务 器 和 高 端的 桌面 系统 ， 都 包含 有 多 个 处 理 器 。 典 型 的 服 
务 器 系统 集成 了 很 多 处 理 器 ,处 理 器 之 间 共 享 大 容量 的 存储 器 和 了 O 设备 。Web 服务 器 管理 庞 
大 的 数据 库 ， 并 且 需 要 服务 大 景 网 络 端口 同时 发 出 的 众多 请 求 。 用 于 大 规模 科学 计算 的 计算 服 
务 器 包含 数 以 千 计 的 处 理 器 ， 并 连接 万 亿 字 节 容 量 的 存储 器 和 千 万 亿 字 节 容 量 的 磁盘 。 此 外 ， 由 
于 集成 的 层次 仍然 在 不 断 增加 ， 多 处 理 器 体系 结构 不 久 将 能 在 便携 式 电 脑 和 便宜 的 桌面 系统 中 
占据 一 席 之 地 。 

由 于 可 用 的 多 处 理 器 系统 数目 的 增加 ， 我 们 需要 仔细 考察 那些 能 够 更 高 效 利 用 它们 的 技术 。 
实际 中 经 常会 出 现 某 个 应 用 所 需 的 理想 处 理 器 数量 和 实际 系统 可 用 的 物理 处 理 器 数量 不 匹配 的 
状况 。 随 着 多 处 理 器 系统 规模 的 增加 ， 大 部 分 应 用 都 只 能 利用 实际 可 用 的 处 理 器 中 的 一 小 部 分 。 
这 可 能 是 由 于 程序 中 可 用 的 并 行 性 的 限制 ， 或 者 是 由 于 处 理 器 之 间 的 通信 开销 过 大 而 导致 的 应 
用 的 可 扩 放 性 的 限制 。 这 个 问题 导致 了 对 多 处 理 器 系统 划分 方法 的 研究 ， 从 而 多 个 应 用 可 以 同 
时 利用 系统 的 可 用 资源 。 


9.1 多 处 理 器 系统 的 划分 


在 这 一 章 中 ， 我 们 讨论 虚拟 化 多 处 理 器 系统 的 常用 技术 。 与 其 他 虚拟 化 方法 类 似 ， 一 个 虚拟 
化 多 处 理 器 系统 的 表现 可 能 反映 也 可 能 不 反映 底层 物理 系统 的 准确 配置 。 术 语 “ 刘 分 ”表明 给 
每 个 虚拟 多 处 理 器 系统 分 配 一 个 系统 可 用 资源 的 子 集 。 第 8 章 所 描述 的 系统 虚拟 机 技术 本 质 上 就 
是 从 时 间 上 进行 处 理 器 资源 的 划分 。 而 多 处 理 器 系统 提供 了 一 个 新 的 维度 ， 就 是 从 空间 上 划分 
处 理 器 。 此 外 ， 正 如 我 们 将 要 看 到 的 ， 两 种 划分 也 可 以 结合 ， 从 而 虚拟 系统 可 以 包含 比 系 统 可 用 
的 物理 处 理 器 数目 更 多 的 处 理 器 。 

多 处 理 器 系统 可 以 用 多 种 方法 进行 配置 ， 这 将 在 附录 A.7 节 中 讨论 。 一 种 方法 是 配置 成 机 
群 系统 ， 一 般 包含 一 定数 目的 单 处 理 器 (或 小 的 多 处 理 器 ) 系统 ， 它 们 之 间 通 过 高 速 网 络 接口 
相互 通信 。 另 一 种 方法 是 配置 成 一 个 大 的 共享 存储 处 理 (SMP) 平台 ,一般 包含 多 个 通过 共享 
存储 器 通信 的 处 理 器 。 在 任意 的 多 处 理 器 平台 上 虚拟 任意 的 多 处 理 器 体系 结构 都 是 可 能 的 ， 但 
我 们 的 讨论 主要 局 限于 在 一 个 SMP 主机 平台 上 构造 虚拟 多 处 理 器 机 群 系统 ， 机 群 中 的 每 个 节点 
都 是 一 个 SMP ABE. OPER) SMP 节点 的 处 理 器 数目 通常 很 少 ， 这 一 点 很 关键 ， 因 为 我 们 所 讨论 
的 很 多 划分 技术 都 假设 客户 机 需要 的 处 理 器 数目 不 多 于 主机 中 可 用 的 处 理 器 数目 。 如 图 9-1 所 
示 ， 划 分 技术 为 我 们 提供 了 多 个 虚拟 共享 存储 器 系统 同时 在 一 个 单一 共享 存储 主机 系统 上 运行 
的 假象 。 


9.1.1 动机 


除了 效率 之 外 ， 还 有 很 多 虚拟 化 多 处 理 器 系统 的 原因 。 其 中 一 些 是 第 8 章 中 列 出 的 传统 原 
因 的 延伸 。 另 一 方面 ， 随 着 多 处 理 器 的 使 用 越 来 越 普 及 ， 用 户 正 在 寻找 其 他 的 方法 ， 以 利用 
虚拟 化 所 提供 的 能 力 。 我 们 在 下 面 列 出 了 一 些 典型 的 由 虚拟 化 多 处 理 器 系统 所 能 提供 的 额外 
的 好 处 。 
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多 处 理 器 硬件 


| 


图 9-1 将 大 的 共享 存储 器 系统 划分 成 小 的 共享 存储 器 系统 
工作 负载 合并 


共享 存储 多 处 理 器 模式 已 经 被 高 端 数据 库 服 务 器 使 用 了 很 多 年 。 这 个 模式 结合 了 在 大 量 处 
理 器 之 间 支 持 高 速 缓存 一 致 性 的 技术 先进 性 和 单一 命名 空间 提供 的 编程 简单 性 。 现 在 大 的 数据 
库 服务 器 几乎 都 采用 共享 存储 多 处 理 器 系统 。 大 容量 的 存储 器 和 磁盘 、 高 可 靠 性 的 要 求 以 及 由 
于 冷却 和 安全 导致 的 对 特殊 环境 的 要 求 ， 使 得 这 些 系统 非常 昂贵 。 然 而 ， 在 大 型 企业 中 的 这 些 大 
型 数据 库 服务 器 消耗 的 每 个 计算 单元 ， 在 企业 的 其 他 计算 层次 上 还 会 相应 地 消耗 更 多 的 计算 单 
元 。 例 如 ， 在 一 个 三 层 模型 中 ， 有 大 量 的 工作 站 或 者 PC 向 第 一 级 服务 器 提交 需求 ， 这 些 服务 器 
通常 被 称 作 应 用 服务 器 ， 如 图 9-2 所 示 。 这 些 应 用 服务 器 负责 运行 商业 处 理 逻 辑 ， 以 及 对 大 型 数 
据 库 服务 器 的 访问 。 


数据 库 服务 器 


应 用 服务 器 










应 用 服务 器 


应 用 服务 器 





a) 典型 的 三 层 服务 器 模型 
数据 库 服务 器 


虚拟 化 应 虚拟 化 应 虚拟 化 应 
用 服务 器 用 服务 器 用 服务 器 






b) 合并 应 用 服务 器 和 数据 库 服务 器 
图 9-2 ”单个 平台 上 数据 库 服务 器 和 应 用 服务 器 的 合并 
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计算 中 心 的 管理 费用 很 大 程度 上 取决 于 需要 支持 的 系统 数目 。 可 以 通过 减少 中 心 不 同 类 型 
的 系统 来 降低 这 些 费 用 。 那 些 需 要 为 他 们 的 数据 库 配置 大 的 服务 器 的 机 构 发 现 如 果 可 以 把 应 用 
服务 器 的 工作 负载 转移 到 大 型 服务 器 上 (图 9-2) ， 这 种 方法 将 是 非常 有 吸引 力 的 。 

另 一 个 重要 的 应 用 场景 是 在 一 个 大 的 远程 服务 器 上 整合 多 个 工作 站 用 户 。 那 些小 系统 的 用 
户 可 能 不 愿 迁移 到 大 的 系统 上 去 ， 除 非 他 们 的 数据 和 环境 的 隐私 性 可 以 被 保证 。 而 且 ， 不 同 用 户 
所 喜欢 的 操作 系统 和 系统 配置 也 有 很 大 差异 。 大 型 服务 器 的 虚拟 化 通过 划分 物理 资源 满足 了 这 
两 种 要 求 一 一 通过 划分 所 获得 的 隔离 满足 了 隐私 性 的 需求 ， 与 多 道 程 序 解决 方案 相 比 构造 可 变 
划分 的 能 力 为 用 户 提供 了 更 大 的 自由 。 

基于 机 群 的 编程 模型 

大 型 SMP 服务 器 在 很 多 科学 和 商业 应 用 中 提供 了 很 高 的 性 能 ， 尤 其 是 数据 库 应 用 。 另 一 方 
面 ， 近 期 低 成 本 的 机 群 平台 有 了 很 大 增长 ， 其 中 包括 刀片 服务 器 。 随 着 编程 工具 和 为 这 种 平台 所 
开发 的 应 用 的 迅速 增加 ， 在 高 端 共享 存储 器 系统 上 运行 基于 机 群 应 用 的 要 求 越 来 越 强烈 。 划 分 
技术 为 大 型 共享 存储 器 系统 用 户 提供 了 在 多 个 小 虚拟 多 处 理 器 上 的 多 个 操作 系统 映像 ， 其 上 可 
以 运行 这 种 机 群 应 用 。 例 如 ， 一 个 为 机 群 编写 的 使 用 消息 传递 接口 (MPI) (Pacheco 1996) 的 
程序 ， 可 以 不 经 改变 就 在 这 样 的 划分 系统 上 运行 。 更 进一步 ， 还 可 以 利用 系统 中 的 共享 存储 器 硬 
件 机 制 来 优化 消息 传递 库 ， 从 而 提高 执行 效率 。 

系统 移植 

技术 的 迅速 发 展 导 致 了 具有 新 能 力 的 新 系统 以 惊人 的 速度 推出 。 为 了 保持 竞争 力 ， 企 业经 
常 因为 计算 和 服务 器 的 需要 而 被 迫使 用 最 新 的 技术 。 然 而 移植 到 新 系统 的 过 程 是 很 艰难 的 。 已 
有 应 用 的 新 版 本 必须 经 过 彻底 的 测试 后 才能 代替 旧版 本 。 类 似 地 ， 对 于 新 版 本 的 操作 系统 或 中 
间 件 ， 只 有 在 原 有 应 用 都 提供 了 在 新 系统 上 使 用 的 新 版 本 后 ， 或 者 确认 原 有 应 用 在 新 系统 上 运 
行 没有 问题 之 后 ， 才 能 正式 蔡 代 原 有 的 操作 系统 或 中 间 件 。 因 此 ， 一 个 新 系统 的 推广 过 程 是 一 个 
极 具 破坏 性 的 过 程 。 

划分 系统 能 够 极 大 地 减少 新 系统 移植 所 带 来 的 痛苦 ， 它 允许 在 系统 的 某 些 分 区 中 测试 和 验 
证 不 同 的 组 件 ， 而 这 些 分 区 与 执行 生产 过 程 的 其 他 分 区 是 隔离 开 的 。 划 分 所 提供 的 隔离 性 保证 
了 在 测试 过 程 中 发 现 的 任何 问题 都 不 会 使 整个 系统 般 溃 ， 干 扰 生产 应 用 。 

减少 系统 停机 时 间 

正如 向 新 系统 移植 的 过 程 一 样 ， 一 个 现 有 操作 系统 的 升级 经 常会 牵涉 很 多 安装 和 配置 的 步 
又 ， 这 通常 需要 系统 清除 所 有 的 工作 和 用 户 并 停机 才能 完成 。 划 分 系统 允许 系统 管理 员 在 一 个 
单独 的 分 区 中 进行 大 部 分 的 正常 停机 维护 活动 ， 而 系统 的 其 余部 分 在 继续 进行 生产 工作 。 这 样 ， 
一 个 升级 的 操作 系统 可 以 在 系统 的 其 他 部 分 停机 并 移植 之 前 ， 在 一 个 新 的 分 区 中 彻底 地 测试 
检验 。 

异 构 系 统 

很 多 公司 经 常会 遇 到 这 种 情况 ， 希 望 采 用 新 的 操作 系统 ， 但 由 于 一 些 旧 应 用 程序 的 要 求 被 
迫 继 续 使 用 旧 的 操作 系统 。 例 如 ， 一 个 组 织 可 能 希望 从 一 个 私有 的 Unix 环境 转换 到 Linux 环境 ， 
但 它 可 能 仍然 需要 保持 旧 的 工作 环境 ， 以 运行 一 些 关键 性 的 数据 库 应 用 程序 。 一 个 支持 虚拟 化 
的 平台 将 通过 服务 器 划分 ,使 两 个 操作 系统 在 不 同 的 分 区 中 工作 ， 从 而 允许 两 个 环境 在 同一 个 
服务 器 上 运行 。 

提高 系统 利用 率 

大 多 数 系统 都 被 设计 成 满足 峰值 负载 的 需求 。 然 而 一 个 典型 系统 上 的 平均 工作 负载 仅仅 是 
其 设计 峰值 的 一 小 部 分 。 通 过 对 系统 进行 划分 并 运行 可 变数 量 的 操作 系统 镜像 ， 人 允许 系统 灵活 
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配置 以 适应 需求 的 改变 。 例 如 ， 对 于 峰值 工作 负载 ， 需 要 一 个 大 型 共享 存储 器 系统 的 单一 的 系统 
镜像 ， 系 统 可 以 被 配置 成 一 个 单独 的 分 区 来 运行 。 而 在 其 他 时 候 ， 系 统 可 以 被 配置 成 多 个 分 区 ， 
构成 一 个 可 同时 运行 若干 应 用 程序 的 小 系统 的 机 群 。 这 种 解决 方法 不 仅 提高 了 大 型 服务 器 的 利 
用 率 ， 而 且 与 购买 和 使 用 若干 个 服务 器 相 比 降低 了 开销 。 

能 力 规划 是 指 估算 一 个 机 构 中 不 同 的 工作 负载 大 概 需要 多 大 的 计算 能 力 ， 它 有 助 于 确定 划分 是 
否 可 行 。 灵 活 的 操作 调度 有 助 于 保持 计算 需求 接近 于 平均 的 工作 负载 而 不 是 负载 峰值 的 总 和 。 

很 多 应 用 都 需要 磁带 驱动 器 、 光 存储 和 高 性 能 通信 适配器 之 类 的 资源 ， 但 是 通常 都 只 需要 
很 短 的 时 间 间 隔 。 一 个 系统 可 以 按照 每 个 分 区 上 运行 的 虚拟 系统 所 需要 的 设备 数目 来 提供 资 
源 一 一 事实 上 ， 这 可 能 是 被 分 区 上 运行 的 操作 系统 所 强加 的 需求 ， 尤 其 在 需要 考虑 安全 性 时 。 然 
而 ， 大 多 数 情况 下 都 允许 资源 只 在 系统 需求 的 时 候 才 可 用 一 一 这 些 资源 可 以 在 其 他 时 候 被 “ 借 
给 ”其 他 分 区 。 通 常 的 划分 技术 都 实现 了 这 种 方式 的 资源 分 配 。 资 源 从 一 个 分 区 到 另 一 个 的 动 
态 迁 移 极 大 地 改善 了 系统 的 资源 利用 率 ， 并 且 也 因此 降低 了 系统 的 拥有 成 本 。 

多 时 区 需求 

通常 ， 一 个 国际 公司 不 同 所 在 地 的 部 门 由 于 处 在 不 同 地 理 区 域 而 运行 不 同 的 操作 系统 ， 这 
些 操作 系统 都 有 它们 自己 的 日 期 和 时 间 设 置 。 这 样 做 的 主要 原因 是 系统 停机 维修 或 者 更 新 都 需 
要 在 合适 的 本 地 时 间 进 行 ， 例 如 ， 在 上 晚上 只 有 少量 用 户 登 录 系 统 的 时 候 进 行 。 服 务 器 合并 经 常会 
导致 公司 的 所 有 部 门 使 用 同一 个 物理 服务 器 来 满足 计算 需求 。 通 过 使 各 个 区 域 的 工作 负载 运行 
在 与 其 他 区 域 隔离 的 单独 分 区 上 ， 每 个 区 域 就 可 以 不 受 其 他 区 域 的 影响 独立 地 调度 自己 的 工作 
负载 并 决定 停机 时 间 。 

es 

划分 技术 受到 欢迎 的 很 重要 的 一 个 原因 是 它 可 以 隔离 故障 。 现 在 的 系统 面 对 网 络 攻击 、 无 
意 的 软件 误 操 作 或 者 系统 某 个 部 分 的 硬件 故障 ， 都 是 很 脆弱 的 。 因 而 ， 一 个 多 用 户 系 统 中 的 进程 
可 能 因为 某 个 故障 而 终止 ， 即 使 这 个 故障 并 不 是 在 进程 运行 的 过 程 中 产生 的 或 者 产生 在 程序 未 
使 用 的 硬件 上 。 操 作 系 统 通 常 有 能 力 隔 离 应 用 中 的 软件 故障 。 然 而 ， 随 着 操作 系统 变 得 越 来 越 大 
和 越 来 越 复杂 ， 操 作 系统 自身 可 能 也 被 故障 影响 ， 并 导致 所 有 在 其 上 运行 的 程序 都 失败 。 划 分 可 
以 帮助 把 故障 的 影响 隔离 在 发 生 的 分 区 内 。 这 样 一 个 在 客户 操作 系统 上 发 生 的 导致 系统 裔 溃 的 
事件 ， 将 仅仅 影响 到 这 个 操作 系统 和 它 上 面 的 应 用 程序 。 为 了 恢复 系统 ， 只 需要 重启 在 受 影 响 的 
分 区 上 运行 的 操作 系统 。 其 他 操作 系统 映像 可 以 不 受 故 障 的 影响 继续 运行 。 

故障 可 能 发 生 在 软件 上 或 者 硬件 上 。 一 个 软件 故障 的 例子 是 系统 软件 的 一 个 隐藏 错误 产生 
了 一 个 指向 无 效 存储 器 区 域 的 指针 。 大 多 数 划 分 技术 都 隔离 软件 故障 。 另 一 方面 ， 硬 件 故障 对 于 
一 个 分 区 来 说 不 一 定 是 本 地 的 。 如 果 有 一 个 硬件 故障 导致 了 算术 单元 产生 错误 的 结果 ， 那 么 它 
的 影响 将 取决 于 划分 技术 本 身 。 如 果 使 用 的 是 同一 个 处 理 器 在 多 个 分 区 中 分 时 多 路 复 用 的 划分 
机 制 ， 故 障 就 会 不 仅仅 影响 表现 出 错误 的 分 区 。 男 一 方面 ， 如 果 一 个 系统 使 用 的 是 物理 划分 ， 一 
个 处 理 器 被 分 配给 不 多 于 一 个 分 区 ， 那 么 只 有 这 个 分 区 将 被 故障 影响 。 物 理 划分 的 每 个 分 区 与 
其 他 分 区 所 使 用 的 硬件 资源 都 不 同 ， 是 最 能 隔离 硬件 故障 的 一 种 。 

当然 ， 划 分 系统 的 可 靠 性 也 依赖 于 VMM 自身 的 可 靠 性 。 典 型 的 VMM 包含 一 个 由 软件 或 者 
微 指令 实现 的 程序 ， 并 有 专门 的 硬件 支持 。VMM 的 可 靠 性 依赖 于 这 两 个 部 分 的 可 靠 性 ， 尽 管 附 
加 的 硬件 通常 很 小 并 且 不 会 严重 影响 可 靠 性 ; 软件 部 分 必须 被 验证 是 正确 的 ， 或 者 应 该 保证 小 
而 简单 。 现 代 的 软件 VMM 通常 都 很 小 ， 比 大 型 的 操作 系统 要 小 两 个 数量 级 。 


9. 1.2 支持 划分 的 机 制 
如 图 9-1 所 示 ， 划 分 需要 位 于 物理 主机 硬件 和 虚拟 多 处 理 器 中 间 的 附加 层 的 帮助 。 我 们 继续 
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把 这 个 层 称 作 庶 拟 机 监控 程序 (VMM) 。VMM 需要 执行 的 操作 决定 了 该 层 的 复杂 性 及 实现 
机 制 。 

就 像 我 们 在 第 8 章 中 看 到 的 ， 对 很 多 ISA， 由 于 需要 在 非特 权 模式 下 执行 客户 操作 系统 ， 导 
致 了 明显 的 性 能 降低 。 大 型 共享 存储 器 系统 上 的 商业 划分 技术 经 常 提供 一 些 硬件 功能 部 件 以 改 
善 VMM 的 性 能 。 实 际 上 VMM 可 能 由 硬件 、 由 硬件 支持 的 微 指令 或 者 由 硬件 支持 的 软件 来 实 
现 。 随 着 更 多 VMM 的 特征 在 软件 上 实现 ， 用 性 能 的 降低 换取 了 更 大 的 灵活 性 。 

采用 硬件 支持 技术 和 不 采用 硬件 支持 技术 的 关键 区 别 在 于 是 否 提供 一 个 新 的 可 以 执行 VMM 
的 特权 模式 。 这 样 就 不 需要 在 客户 模式 下 运行 操作 系统 ， 因 此 也 不 需要 为 客户 操作 系统 执行 的 
特权 操作 特殊 考虑 。 采 用 硬件 支持 虚拟 化 的 一 个 缺点 是 无 法 用 递归 的 方式 虚拟 化 一 一 即 在 硬件 
支持 的 VMM 上 面 运行 软件 VMM. 


9. 1.3 划分 技术 的 分 类 


根据 前 面 所 述 ， 一 个 包含 个 处 理 器 的 大 型 多 处 理 器 系统 的 可 能 实现 范围 有 两 个 极端 。 一 个 
极端 是 一 个 简单 的 a 个 节点 的 机 群 ， 每 个 节点 包含 一 个 单独 的 处 理 器 。 这 种 系统 中 自然 的 系统 映 
像 (RERA) 数目 是 x， 每 个 操作 系统 都 在 一 个 特定 的 处 理 器 上 运行 。 另 一 个 极端 是 一 个 包含 
n 个 处 理 器 的 n 路 共享 存储 系统 ， 所 有 处 理 器 共享 一 个 主 存 储 器 ， 只 有 一 个 单独 的 操作 系统 在 整 
个 系统 上 运行 ， 因 此 任何 系统 上 的 应 用 程序 都 可 以 使 用 所 有 的 处 理 器 和 大 的 共享 存储 器 。 

图 9-3 描述 了 一 些 已 经 实现 的 或 者 在 文献 中 提 到 的 划分 技术 。 如 前 节 所 述 ，VMM 的 实现 在 
划分 技术 中 起 了 重要 作用 ， 我 们 根据 是 否 为 VMM 使 用 特殊 的 硬件 对 划分 技术 进行 分 类 。 

图 9-3 的 左 半 部 分 是 利用 特殊 硬件 提供 高 效 虚拟 机 的 技术 。 这 些 技术 被 归 为 物理 划分 和 逻辑 
划分 两 类 。 在 物理 划分 中 ， 每 个 映像 使 用 的 资源 ， 尤 其 是 处 理 器 ， 都 和 其 他 操作 系统 映像 使 用 的 
资源 在 物理 上 是 不 同 的。 因此 ， 这 种 系统 能 支持 的 分 区 数目 受到 处 理 器 数量 的 限制 ， 尽 管 其 他 因 
素 的 影响 可 能 会 把 这 个 数目 限制 得 更 小 。 

在 逻辑 划分 中 ， 映 像 通常 用 时 分 多 路 复 用 的 方式 共享 一 些 物 理 资 源 。 因 此 ， 逻 辑 划分 能 将 一 
个 nn 路 系统 根据 需要 划分 成 一 个 拥有 多 于 n 个 映像 的 系统 。 逻 辑 划分 的 灵活 性 更 大 ， 并 且 它 需要 
附加 的 机 制 来 提供 安全 高 效 的 共享 资源 服务 。 早 期 的 逻辑 划分 技术 在 微 码 级 上 实现 VMM， 即 在 
一 个 硬件 层 以 上 的 编程 层次 上 ， 但 是 对 系统 的 普通 用 户 不 可 见 (Borden, Hennessy 和 Rymarczyk 
1989) 。 这 一 层 被 看 作 是 硬件 的 一 部 分 ， 通 常 被 称 为 固件 (firmware)。 今 天 ，VMM 通常 被 作为 
协同 设计 的 固件 - 软件 层 来 实现 ,被 称 为 管理 程序 (hypervisor) 。 管 理 程序 的 软件 组 成 部 分 增加 
了 灵活 性 ， 同 时 也 为 配置 系统 的 系统 程序 提供 了 接口 。 

图 9-3 的 右 半 部 分 显示 了 不 使 用 特殊 硬件 的 划分 技术 。 我 们 已 经 在 第 8 章 中 看 到 ， 一 个 系统 
虚拟 机 的 VMM 为 在 一 个 单独 的 系统 上 逻辑 隔离 多 个 操作 系统 提供 了 一 种 优雅 的 方法 。 这 种 技术 
也 能 用 来 创建 多 个 虚拟 共享 存储 器 的 多 处 理 器 系统 。 对 VMM 方法 的 扩充 可 以 实现 划分 的 很 多 主 
要 的 理想 特性 ， 尤 其 是 操作 系统 一 定 程度 上 的 物理 隔离 。 基 于 系统 虚拟 机 的 方法 与 在 图 9-3 左 半 
部 分 列 出 的 硬件 支持 技术 相 比 ， 可 能 会 导致 更 多 的 开销 。 然 而 ， 它 们 非常 灵活 ， 其 实现 的 虚拟 多 
处 理 系统 的 ISA 可 以 与 原本 多 处 理 系 统 的 ISA 不 同 ， 基 于 系统 虚拟 机 的 方法 是 实现 这 种 虚拟 多 
处 理 器 系统 的 唯一 方法 。 

资源 的 划分 是 否 是 一 个 应 该 仅 由 操作 系统 单独 提供 的 功能 ， 关 于 这 个 问题 还 是 有 些 争论 的 ， 并 
且 确 实 有 一 些 操作 系统 提供 了 在 进程 间 划 分 硬件 资源 的 方法 。 虽 然 这 可 能 有 助 于 把 进程 同 其 他 进程 
隔 高 开 ， 但 是 它 并 没有 为 希望 运行 不 同 操作 系统 的 用 户 (或 用 户 组 ) 提供 一 个 虚拟 “机 器 ”。 

本 章 将 讨论 图 9-3 中 所 示 的 大 部 分 划分 技术 。 物 理 划 分 在 9. 2 节 中 描述 ， 另 外 两 种 不 同 的 还 
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辑 划分 将 在 9. 3 和 9. 3. 3 节 中 说 明 。9. 4 节 中 说 明了 基于 系统 VM 的 划分 技术 ， 以 斯 坦 福 大 学 的 
Cellular Disco 系统 作为 实例 。 基 本 上 所 有 多 处 理 器 虚拟 化 工作 都 假设 客户 系统 的 处 理 器 ISA 和 主 
机 系统 的 处 理 器 ISA 完全 相同 。9. 5 节 试 图 列 出 虚拟 化 实现 客户 ISA 与 主机 ISA 不 同 的 系统 所 出 
现 的 问题 ， 尤 其 是 客户 有 不 同 的 存储 器 模型 特性 的 系统 所 涉及 的 问题 。 





基于 
saam 


453 图 9-3 划分 技术 的 类 型 


S4 9.2 物理 划分 


在 所 有 形式 的 划分 中 ， 物 理 划 分 可 能 是 理解 起 来 最 简单 的 并 且 实 现 起 来 最 容易 的 ， 它 在 执 
行程 序 时 引起 的 开销 也 很 小 。 不 同 的 生产 商 允 许 他 们 的 系统 以 不 同 的 方法 进行 物理 划分 。 尽 管 
他 们 使 用 不 同 的 术语 ,但 是 这 些 方 法 的 基本 特征 都 是 允许 一 个 分 区 在 物理 上 拥有 资源 ， 从 而 当 
另 一 个 分 区 有 意 或 者 无 意 地 损坏 系统 的 安全 性 或 可 用 性 时 ， 不 会 引起 危险 。 

与 其 他 划分 技术 不 同 的 是 ， 物 理 划 分 主要 在 硬件 上 完成 对 分 区 配置 的 控制 。 物 理 划 分 不 需 
要 复杂 的 调度 和 管理 资源 的 算法 。 通 常 是 由 一 个 中 央 控 制 单元 从 系统 管理 员 控 制 台 处 接受 命令 ， 
并 发 出 专用 指令 到 各 种 硬件 资源 ， 尤 其 是 系统 板 ， 以 配置 它们 在 一 个 分 区 内 使 用 ， 这 其 中 可 能 包 
括 一 个 系统 板 上 的 存储 器 如 何 映射 到 分 区 的 实际 物理 地 址 空间 之 类 的 信息 。 

一 旦 分 区 配置 好 后 ， 就 可 以 在 分 区 上 加 载 操 作 系 统 了 。 在 一 个 分 区 的 操作 系统 加 载 过 程 中 
完成 那些 通常 与 引导 系统 相关 的 操作 ; 而 其 他 的 分 区 在 这 个 过 程 中 不 会 受到 任何 影响 。 每 个 分 
区 都 能 运行 一 个 操作 系统 ， 而 且 可 以 互 不 相同 。 图 9-4 中 是 一 个 24 个 处 理 器 的 系统 ， 它 包含 6 
个 物理 单元 (如 电路 板 ) ， 每 块 板 上 包括 4 个 处 理 器 、 一 些 存储 内 和 与 磁盘 相连 的 VO 逻辑 。 如 
图 所 示 ， 这 6 块 电 路 板 被 分 成 3 个 分 区 ， 第 一 个 分 区 有 1 块 电 路 板 ， 第 二 个 分 区 有 2 块 电路 板 ， 
第 三 个 分 区 有 3 块 电路 板 。 磁 盘 单元 也 用 类 似 的 方法 独立 划分 。 整 个 系统 通过 一 个 主 控制 台 控 制 
(图 中 没有 画 出 ) 。 

如 前 所 述 ， 多 个 厂商 提供 了 可 以 被 物理 划分 的 大 型 共享 存储 器 系统 。Sun Microsystems 销售 
的 一 种 大 型 SMP 服务 器 可 以 被 划分 成 多 个 域 (Sun 1999) ， 但 每 个 域 必须 被 放置 在 与 其 他 域 不 同 
的 物理 单元 上 。 一 个 物理 单元 由 一 个 系统 板 组 成 ， 最 多 包含 四 个 处 理 器 、4GB 的 存储 器 和 四 条 
VO 总 线 。 一 个 分 区 可 以 跨越 多 个 系统 板 ; 但 是 一 个 系统 板 只 能 属于 一 个 分 区 一 一 两 个 分 区 共享 
一 个 系统 板 上 的 资源 是 不 被 允许 的 。 

Hewlett-Packard 在 它们 的 大 型 服务 器 系统 中 也 允许 物理 划分 (Hewlett-Packard 2000)。 这 些 
分 区 被 称 作 nPartitions。 与 Sun 系统 相似 ， 每 个 分 区 被 限制 在 一 个 或 者 多 个 系统 板 上 ， 它们 被 称 
为 cells。 一 个 cell 最 多 包含 以 对 称 多 处 理 器 方式 连接 的 四 个 处 理 器 ， 共 享 达 16G 的 存储 器 和 多 达 
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12 个 PCI iA, HP 在 它 的 分 区 上 强加 了 更 多 的 限制 一 一 一 个 分 区 的 每 个 cell 在 处 理 器 数目 和 内 
存 的 数量 上 必须 与 这 个 分 区 上 的 其 他 cell 完全 相同 。 

















[oa] | «| E Dis *| [a] [es] [s] [s] > ] “Ti | Disk K | Disk | | Disk | | Disk | 
Jt hy 4 Jt | 
图 9-4 对 一 个 包含 24 个 处 理 器 系统 的 物理 划分 


Fujitsu 的 PrimePower 系统 (Fujitsu 2003) 有 多 达 128 个 处 理 器 ， 也 可 被 物理 划分 。 每 个 系 
统 板 最 多 包含 8 个 处 理 器 、 存 储 器 和 ILO， 它们 通过 一 个 交叉 开关 连接 起 来 。 分 区 可 以 跨越 一 个 
或 者 多 个 系统 板 ， 但 是 PrimePower 允许 分 区 比 一 个 系统 板 要 小 ， 每 个 8 个 处 理 器 的 系统 板 可 以 
最 多 包含 4 个 物理 分 区 。 

以 下 是 物理 划分 与 其 他 划分 方式 相 比 的 关键 优点 。 

。 故障 隔离 : 系统 对 不 同类 型 故障 的 健壮 性 在 服务 器 系统 中 是 相当 重要 的 。 物 理 划 分 试图 
保证 将 一 个 分 区 与 其 他 分 区 的 事件 隔离 。 物 理 划 分 系统 确保 了 如 果 在 一 个 分 区 上 发 生 软 
件 故障 ， 只 有 物理 系统 上 驻 留 了 故障 分 区 的 部 分 会 受到 影响 。 控 制 单元 被 设计 成 能 复原 
分 区 并 且 重 新 启动 操作 系统 ， 而 系统 中 的 其 他 分 区 不 会 观察 到 故障 的 任何 影响 。 这 种 隔 
离 也 被 扩展 到 硬件 故障 。 一 个 物理 实体 例如 电路 板 或 者 一 个 多 芯片 模块 只 与 一 个 分 区 相 
关联 ， 因 此 系统 可 以 设计 成 当 电 路 板 上 的 一 个 处 理 器 或 者 模块 发 生 故 障 时 系统 上 其 他 分 
区 不 会 瘫痪 。 然 而 ， 这 并 不 能 消除 单 点 故障 。( 系统 中 的 一 个 单 点 故障 被 定义 为 一 个 可 以 
导致 整个 系统 瘫痪 的 故障 。) 在 大 多 数 普通 系统 中 都 有 很 多 单 点 故障 。 例 如 控制 单元 就 是 
一 个 单 点 故障 点 ， Ue Te a 系统 中 的 分 区 就 没有 能 力 复位 或 者 响应 控制 台 
命令 。 男 一 方面 ， 给 定单 元 上 硬件 故障 的 概率 一 般 来 说 与 此 单元 中 硬件 的 数目 是 成 
比例 的 ， A sine s 度 比较 低 而 且 它 的 规模 很 小 ， 与 硬件 的 其 余部 分 相 比 
也 就 没有 那么 脆弱 。 连 接 系 统 中 不 同 处 理 器 或 者 不 同 电 路 板 的 交 又 开关 是 另 一 个 单 点 故 
障 ， 大 多 数 厂商 保证 这 个 开关 是 由 本 质 上 可 靠 的 技术 构造 的 ， 它 有 健壮 的 通信 和 路径 和 足 
够 的 元 余 来 确保 非常 高 的 平均 故障 间隔 时 间 (MTBF)。 

更 好 的 安全 隔离 : 每 个 分 区 都 被 保护 不 受到 可 能 来 自 其 他 分 区 的 有 意 或 无 意 的 拒绝 服务 
攻击 。 尽 管 每 个 分 区 可 以 有 自己 的 系统 管理 员 , 但 一 个 分 区 上 的 系统 管理 员 不 能 在 其 他 
分 区 上 进行 未 被 授权 的 活动 。 

更 好 的 满足 系统 级 目标 的 能 力 : 系统 级 目标 通常 由 系统 所 有 者 和 系统 用 户 之 间 的 契约 而 
产生 。 系 统 用 户 要 为 系统 保证 的 具体 计算 资源 数量 付款 。 和 其 他 划分 形式 相 比 ， 物 理 划 
分 创建 的 分 区 更 类 似 于 硬件 系统 ， 独 立 系 统 上 的 资源 分 配 技 术 可 以 更 容易 并 且 更 可 预测 
地 应 用 在 物理 划分 系统 中 。 
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虽然 物理 划分 有 很 多 有 吸引 力 的 特征 ,但 是 如 果 系 统 利用 率 要 被 优化 ， 它 就 可 能 不 再 是 理 
想 的 解决 方法 。 物 理 分 区 未 被 充分 利用 的 情况 经 常会 发 生 ， 例 如 ， 由 于 系统 级 目标 强制 VMM 采 
用 保守 的 资源 分 配 策 略 。 由 于 故障 隔离 要 求 所 导致 的 物理 约束 ， 动 态 负载 平衡 在 物理 划分 中 也 
是 很 困难 的 。 逻 辑 划分 牺牲 了 这 种 分 区 的 物理 隔离 ， 但 获得 了 更 大 的 分 区 资源 分 配 的 灵活 性 。 


9.3 逻辑 划分 


像 物理 划分 一 样 ， 逻 辑 划分 是 一 种 在 大 的 单独 共享 存储 器 系统 上 提供 多 个 共享 存储 器 系统 
映像 的 方法 。 但 是 和 物理 划分 不 同 的 是 ， 这 种 划分 是 “逻辑 ”上 的 ,一 个 分 区 没有 清晰 的 、 稳 
定 的 物理 边界 。 在 逻辑 划分 中 ， 两 个 虚拟 机 的 状态 可 能 完全 是 互相 交织 的 ， 不 仅仅 是 存储 器 ， 甚 
至 在 处 理 器 也 是 这 样 。 正 如 上 一 节 结 尾 所 提 到 的 ， 工 作 负载 平衡 是 逻辑 划分 的 一 个 重要 目标 ， 通 
常 通过 共享 资源 能 够 非常 好 地 实现 这 一 点 ， 尤 其 是 通过 时 分 多 路 复 用 的 方式 在 多 个 分 区 间 共 享 
处 理 器 。 

逻辑 划分 是 在 大 型 机 上 提出 并 使 用 的 ， 如 Amdahl (1984 年 ) IBM ( 1988 年 ) 和 Hitachi 
(1989 Œ). RE VM/370 的 概念 已 经 很 好 地 建立 ， 并 且 用 户 已 经 在 一 台 机 器 上 同时 运行 多 个 操 
作 系 统 ， 但 是 大 家 觉得 仍然 需要 一 种 方法 来 实现 以 下 这 些 目 标 : a 不 需要 客户 操作 系统 在 用 户 
模式 下 运行 ; b 与 在 本 地 运行 相 比 ， 要 进一步 降低 在 虚拟 机 上 运行 程序 导致 的 开销 ; c. 不 需要 
复杂 的 虚拟 机 监控 程序 ， 当 时 它 几 乎 与 操作 系统 的 复杂 性 相当 。 为 了 实现 这 些 目标 ，Amdahl 采 
用 多 域 设施 (multiple domain facility, MDF) (Doran 1988), IBM 使 用 处 理 器 资源 /系统 管理 
(PR/SM) 功能 部 件 的 逻辑 划分 (logical partitioning, LPAR) (Borden, Hennessy 和 Rymarczyk 
1989), Hitachi 采用 多 个 逻辑 划分 功能 部 件 (multiple logical partition feature，MLPF) ， 这 三 个 系 
统 均 使 用 低级 的 硬件 和 微 指 令 固件 实现 了 前 面 所 述 的 目标 。 固 件 提供 了 更 大 的 灵活 性 ， 甚 至 能 
在 系统 已 经 实现 后 增加 扩充 设备 。 

从 操作 系统 和 在 其 上 运行 的 应 用 程序 来 看 ， 一 个 逻辑 分 区 与 物理 分 区 的 行为 是 相似 的 。 在 
大 多 数 情况 下 ， 为 在 原始 机 器 上 运行 而 设计 的 操作 系统 可 以 不 加 修改 的 加 载 在 一 个 逻辑 分 区 上 。 
分 区 的 特性 决定 了 操作 系统 所 看 到 的 机 器 的 特性 。 然 而 与 物理 分 区 不 同 的 是 ， 一 个 逻辑 分 区 可 
用 的 硬件 资源 可 能 是 与 其 他 分 区 共享 的 。 和 其 他 系统 级 虚拟 机 一 样 ， 逻 辑 分 区 仅仅 有 分 配给 它 
使 用 的 资源 所 有 权 的 假象 。 


9.3.1 逻辑 划分 的 主要 特征 


逻辑 划分 中 的 物理 资源 分 配 与 物理 划分 的 情况 一 样 ， 是 在 分 区 初始 化 时 进行 的 。 主 要 区 别 
是 物理 划分 中 的 分 配 必须 遵守 一 些 物 理 约束 ， 而 逻辑 划分 不 需要 。 如 图 9-5， 可 以 发 现在 图 中 尽 
管 三 个 分 区 所 需 的 处 理 器 总 数 是 28 ， 该 划分 却 可 以 在 仅 有 24 个 处 理 器 的 系统 上 进行 ， 因 为 其 中 
有 4 个 处 理 器 被 分 区 1 和 分 区 2 共享 。 
一 些 使 用 固件 的 逻辑 划分 的 主要 特性 如 下 。 
。 处 理 器 的 分 配 : 一 个 分 区 可 以 指定 它 需 要 的 处 理 能 力 的 总 量 ， 并 且 把 可 用 处 理 器 的 分 配 
留 给 工作 负载 管理 软件 来 做 ; 或 者 它 可 以 指定 系统 中 特定 的 处 理 器 专 供 自己 使 用 。 一 个 
分 区 也 可 以 指定 它 需 要 的 处 理 器 数量 ， 但 是 不 与 其 他 分 区 共享 。 例 如 ， 如 果 一 个 分 区 需 
要 四 个 处 理 单元 ， 这 个 分 区 可 以 指定 它 需 要 完全 供 自 己 使 用 的 四 个 处 理 器 ,或 者 它 需 要 
八 个 处 理 器 ,但 是 只 使 用 每 个 处 理 器 一 半 的 可 用 处 理 能 力 。 
。 存储 器 的 分 配 : 所 有 的 共享 存储 器 以 粗 粒度 成 块 的 方式 分 配给 分 区 ， 例 如 1MB。 小 的 块 
增加 了 国 件 监 控 程 序 需 要 执行 的 分 类 记录 ， 而 大 的 块 则 限制 了 划分 的 灵活 性 。 从 分 区 的 
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地 址 空间 中 的 实际 地 址 到 大 的 存储 器 中 的 物理 地 址 的 转换 由 硬件 完成 。 

。 1/O 资源 的 分 配 : 每 个 分 区 有 自己 的 IO 子 系 统 。 一 个 有 多 个 端口 的 VO 设备 可 以 被 多 
个 分 区 共享 ， 每 个 分 区 分 配 一 定数 目的 端口 。 在 简单 的 划分 机 制 中 ， 端 口 在 分 区 初始 化 
时 被 分 配 。 

。 分 区 之 间 的 通信 : 为 了 允许 从 机 群 系统 到 分 区 系统 的 简单 移植 ， 分 区 间 也 支持 机 群 上 普 
遍 使 用 的 通信 模式 。 这 种 通信 通常 使 用 共享 的 存储 设备 或 者 网 络 命令 。 一 个 分 区 相对 于 
外 部 世界 (包括 其 他 分 区 ) 好 像 是 一 台 孤 立 的 机 器 。 





Ew 
Disk} [Disk Disk | Disk | 


图 9-5 将 一 个 包含 24 个 处 理 器 的 系统 分 成 三 个 分 区 。 分 区 1 (点 状 阴影 区 域 ) 需要 8 个 处 理 器 ， 其 
中 仅 有 4 个 作为 专用 处 理 器 ; 分 区 2 〈 浅 灰色 阴影 区 域 ) 需要 10 个 处 理 器 ， 其 中 6 个 作为 专 
用 ; 分 区 3《〈 深 灰色 阴影 区 域 ) 需要 10 个 专用 处 理 器 


在 下 一 节 中 ， 我 们 将 详细 分 析 IBM 的 LPAR 系统 ， 它 在 大 型 机 上 实现 逻辑 划分 。 
9.3.2 案例 研究 : IBM System/390 逻辑 划分 的 特征 


IBM 大 型 机 提供 了 一 个 处 理 器 资源 /系统 管理 (PR/SM) 的 功能 部 件 ， 人 允许 一 个 SMP 复杂 
到 可 以 利用 逻辑 划分 技术 运行 多 个 操作 系统 映像 (Borden, Hennessy 和 Rymarczyk 1989), PR/ 
SM 由 特殊 的 硬件 和 微 指令 组 成 ， 它 们 可 以 被 系统 管理 员 使 用 机 器 控制 台 直 接 控制 和 调用 。 人 允许 
开发 PR/SM 特性 的 机 器 模式 被 称 作 LPAR (logical partitioning) ， 在 这 种 模式 中 ， 系 统 可 以 有 多 
个 分 区 一 一 在 最 早 提出 的 ES/3090S 系统 中 ， 分 区 数目 可 达 六 个 。 

每 个 逻辑 分 区 本 质 上 都 是 一 个 硬件 资源 的 集合 ， 包 含 支持 一 个 操作 系统 所 需要 的 处 理 器 、 
存储 器 和 1O。 每 个 逻辑 分 区 可 以 支持 一 个 与 其 他 分 区 不 同 的 操作 系统 。 除 了 操作 系统 外 ， 一 个 
分 区 也 能 运行 一 个 常规 的 系统 虚拟 机 的 VMM。 各 个 分 区 之 间 是 逻辑 独立 的 一 一 它们 之 间 采 用 与 
机 群 中 节点 间 类 似 的 方法 通信 ， 这 些 通信 方法 包括 共享 存储 设备 、 通 道 间 的 通信 和 网 络 命令 。 

机 器 的 某 些 硬件 资源 在 逻辑 分 区 之 间 划 分 。 每 个 分 区 只 能 看 到 系统 物理 存储 器 的 一 部 分 。 
VO 组 件 ， 如 通道 路 径 、 子 通道 和 逻辑 控制 单元 也 被 分 给 各 个 分 区 。 另 一 方面 ， 系 统 中 的 处 理 器 
资源 可 以 由 一 个 分 区 独占 或 者 多 个 分 区 共享 ， 每 个 分 区 可 以 使 用 一 个 或 者 多 个 逻辑 (或 虚拟 ) 
处 理 器 。 资 源 的 过 度 委托 (overcommitment) 是 允许 发 生 的 一 一 所 有 分 区 使 用 的 处 理 器 总 数 可 以 
超过 实际 可 用 物理 处 理 器 的 数目 。 

物理 主 存储 器 的 连续 区 域 以 1MB 的 粒度 分 配给 各 个 分 区 。 分 区 中 所 有 对 实际 存储 器 的 访问 
都 被 重新 映射 到 物理 存储 器 的 对 应 区 域 上 ,并且 检验 以 确保 访问 地 址 在 分 区 指定 的 范围 内 。 
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每 个 分 区 都 有 私有 的 逻辑 IO 子 系统 。 一 个 给 定 的 设备 被 关联 到 多 个 通道 路 径 ， 以 允许 它 被 
不 同 的 应 用 程序 共享 。 这 些 通道 路 径 被 分 给 不 同 的 分 区 ， 从 而 提供 了 所 需 的 隔离 性 。 

单个 分 区 使 用 的 处 理 器 数目 不 能 超过 系统 中 可 用 物理 处 理 器 资源 的 总 数 。 分 区 的 用 户 可 以 
决定 分 区 是 专用 的 还 是 共享 的 。 一 个 专用 的 分 区 独占 分 配给 它 的 物理 处 理 器 资源 ， 这 种 方式 大 
概 最 适合 于 对 计算 资源 有 固定 要 求 的 分 区 。 大 部 分 工作 负载 的 要 求 往往 是 在 峰值 和 较 低 值 之 间 
变化 的 。 在 这 种 情况 下 ， 使 用 一 个 共享 分 区 并 且 人 允许 分 区 间 的 处 理 器 共享 可 能 会 更 有 效 (图 9-6)。 
每 个 分 配给 一 个 共享 分 区 的 处 理 器 都 与 一 个 用 户 定义 的 权重 有 关 ， 这 个 权重 指定 了 该 分 区 在 使 
用 这 个 处 理 器 时 的 优先 级 。 


专用 分 区 两 个 共享 分 区 
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_PR/SM PS 
pa Tiare | 调度 程序 和 其 他 LPAR 软件 
ee is A - J} Í ad 
a) 系统 中 多 个 活动 层 的 快照 。 与 标准 处 理 器 b) LPAR 的 系统 视图 。 每 个 物理 处 理 器 可 以 被 单个 分 区 
相 比 ， 底 层 硬件 包含 附加 的 指令 和 微 码 。 独占 或 被 多 个 不 同 大 小 的 分 区 共享 。 一 个 分 区 的 逻辑 
这 种 硬件 允许 在 不 同 分 区 间 切 换 处 理 器 到 物理 处 理 器 的 分 配 由 LPAR 软件 中 的 分 派 程 


序 和 作业 调度 程序 动态 完成 
图 9-6 LPAR 机 制 


1BM/390 上 的 分 区 由 用 户 定义 ， 需 要 指定 

© 分 区 名 

。 LO 配置 

。 存储 器 配置 

。 处 理 器 配置 

每 个 机 器 有 一 个 操作 控制 台 ， 它 在 系统 层次 结构 的 三 个 不 同 的 级 别 上 执行 一 系列 操作 : 管 
理 整个 系统 的 物理 配置 ，LPAR 环境 的 配置 一 一 包含 各 个 分 区 中 的 资源 ， 以 及 在 分 区 上 运行 的 操 
作 系 统 的 配置 。 

LPAR 功能 很 大 程度 上 由 系统 控制 台 控制 。 只 有 在 一 个 分 区 被 激活 (activate) ， 并 且 确 定 该 
分 区 已 经 获得 了 所 有 它 需 要 的 资源 之 后 ， 资 源 才 会 被 这 个 分 区 专用 。 当 所 需 的 所 有 资源 都 可 用 
之 后 ,一 个 就 绪 的 分 区 才 被 激活 。 例 如 ， 一 个 共享 分 区 只 有 当 它 需要 的 处 理 器 数目 小 于 物理 处 理 
器 的 总 数 与 当前 活动 分 区 所 独占 的 处 理 器 数目 之 差 时 ， 才 能 被 激活 。 激 活 (activation) 在 逻辑 
上 相当 于 启动 系统 时 的 上 电 复 位 操作 。 系 统 随后 在 将 分 区 上 加 载 所 需 的 操作 系统 。 

尽管 大 部 分 被 分 配给 一 个 分 区 的 资源 都 保留 在 这 个 分 区 中 ,仍然 可 能 遇 到 需要 将 资源 在 分 
区 之 间 转 移 的 情况 。 例 如 ， 可 能 有 一 个 VO 设备 ， 璧 如 一 个 很 昂贵 的 专用 记录 单元 ， 系 统 可 能 仅 
仅 只 能 支持 一 个 这 样 的 设备 ， 但 是 这 个 单元 不 会 被 分 区 持续 使 用 很 长 时 间 。 在 这 种 情况 下 ， 系 统 
管理 员 可 以 把 它 从 一 个 分 区 中 移 除 ， 并 分 配给 其 他 需要 它 的 分 区 。 在 System/390 中 ， 通 道路 径 
从 一 个 分 区 到 另 一 个 分 区 的 重 构 也 是 通过 控制 台 完成 的 。 

当 一 个 处 理 器 被 多 个 分 区 共享 时 ， 就 需要 公正 地 分 配 处 理 器 资源 ， 并 与 每 个 分 区 的 权重 保 
持 一 致 。 调 度 逻 辑 处 理 器 在 物理 处 理 器 上 运行 是 由 一 个 叫做 LPAR 工作 负载 管理 的 软件 程序 完成 
的 ， 它 在 其 所 属 的 每 个 分 区 运行 。 调 度 决定 是 基于 对 1O 操作 的 预期 响应 和 对 可 用 处 理 器 的 相对 
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利用 率 作出 的 。 当 LPAR 分 派 程 序 安 排 一 个 活动 分 区 在 处 理 器 上 执行 时 ， 它 会 维护 每 个 活动 分 区 
的 状态 ， 并 且 为 硬件 寄存 器 装载 合适 的 内 容 。 以 下 是 调度 一 个 正在 等 待 的 分 区 需要 考虑 的 一 些 
事项 。 
。 分 配给 分 区 的 权重 : 一 个 等 待 的 分 区 优先 级 由 此 分 区 和 其 他 等 待 分 区 的 相对 权重 决定 。 
。 分 区 的 活动 性 : 当 一 个 分 区 中 的 某 个 逻辑 处 理 器 进入 一 个 等 待 状态 时 〈 即 等 待 一 些 外 部 
事件 〈 例 如 VO) 发 生 的 状态 ， 这 个 事件 不 需要 等 待 调度 ) ， 选 择 加 载 其 他 的 分 区 在 处 理 
器 上 执行 可 能 得 到 更 好 的 效果 。 
高 优先 级 VO 中 断 : 当 一 个 等 待 中 断 的 逻辑 处 理 器 接收 到 O 中 断 时 ， 如 果 等 待 分 区 的 
优先 级 比 当 前 执行 的 其 他 分 区 的 优先 级 高 ， 这 个 逻辑 处 理 器 就 替换 正在 执行 的 其 他 分 区 
的 处 理 器 。 
间隔 超时 : 分 派 程序 允许 任何 分 区 执行 一 段 预定 的 最 大 时 间 。 如 果 一 个 逻辑 处 理 器 在 预 
定时 间 间 隔 结束 时 仍然 保持 活动 ， 就 将 它 换 出 系统 。 这 是 一 种 防止 分 区 逸 出 或 恶意 独占 
系统 并 阻碍 其 他 分 区 向 前 执行 的 有 用 机 制 。 
OS - 制导 换 出 : 如 果 一 个 分 区 通过 上 述 准 则 选择 的 逻辑 处 理 器 工作 在 一 个 无 用 模式 ， 如 
空 循环 ， 就 执行 操作 系统 制导 换 出 。System/390 上 提供 了 这 种 机 制 ， 允 许 分 区 上 运行 的 
操作 系统 或 者 VMM 通知 调度 程序 ， 它 工作 在 一 个 无 效 的 模式 ， 可 以 被 换 出 。 

IBM 的 LPAR 提供 逻辑 划分 机 制 期 望 获得 的 故障 隔离 机 制 。 任 何 软 件 故障 都 仅仅 会 导致 出 
错 分 区 的 失效 ， 这 个 故障 不 会 影响 其 他 分 区 。 任 何 时 间 的 硬件 故障 也 应 该 尽 可 能 只 影响 到 故障 
发 生 时 正在 执行 的 分 区 。 检 测 到 故障 时 ， 就 给 当前 正在 执行 的 分 区 发 送 一 个 异常 ， 随 后 分 区 上 的 
操作 系统 将 尝试 按照 传统 的 方式 从 故障 中 恢复 。 硬 件 故障 的 影响 仅 限 于 一 个 单独 的 分 区 ， 尤 其 
是 在 使 用 专用 分 区 的 情况 下 。 然 而 ， 与 物理 划分 不 同 的 是 ， 很 多 情况 下 ， 共 享 组 件 的 故障 会 导致 
多 个 分 区 甚至 整个 系统 瘫痪 。 

HE, RT IBM 的 大 型 机 ， 仅 有 少数 系统 用 微 码 提供 逻辑 划分 的 功能 。 随 着 RISC 指令 集 的 
出 现 以 及 由 此 引发 的 固件 实现 的 迁移 ， 更 多 的 系统 开始 在 类 似 协 同 设计 虚拟 机 的 软件 层次 实现 
微 码 功能 。 这 个 软件 层 被 称 为 超级 管理 程序 ， 我 们 将 在 下 一 小 节 介绍 。 


9.3.3 利用 超级 管理 程序 进行 逻辑 划分 


逻辑 划分 技术 已 经 被 引入 到 一 些 不 包含 微 码 处 理 器 实现 的 系统 中 。 例 如 ， 当 前 基于 AS/400 
的 IBM iSeries 服务 器 (Boutcher 2001), HP-Compaq 的 Superdome 服务 器 (HP 2002) 和 IBM 的 
pSeries AIX 服务 器 。IBM System/390 上 支持 逻辑 划分 技术 的 复杂 微 码 指令 被 使 用 主机 平台 基本 
ISA 的 程序 所 取代 ， 并 且 这 个 程序 运行 在 一 个 特殊 模式 下 ， 它 比 系 统 上 其 他 所 有 的 软件 有 更 高 的 
特权 。 因 此 ， 一 个 新 的 操作 模式 定义 可 以 区 分 这 种 划分 类 别 ， 这 个 新 的 模式 被 硬件 开发 者 用 来 提 
供 划 分 能 力 。 如 果 这 种 模式 没有 在 ISA 中 体现 出 来 ， 那 么 本 质 上 在 此 模式 下 工作 的 软件 可 以 被 
看 作 是 硬件 的 扩展 ， 这 与 协同 设计 虚拟 机 中 的 VMM 软件 是 非常 相像 的 。 我 们 为 这 部 分 软件 定义 
一 个 通用 的 名 称 一 一 超级 管理 程序 。 

为 了 克服 系统 对 软件 故障 的 脆弱 性 ， 超 级 管理 程序 的 一 个 重要 特性 是 它 比 较 小 。 与 无 划分 
系统 上 的 操作 系统 类 似 ， 超 级 管理 程序 对 机 器 上 的 所 有 资源 有 最 终 控 制 权 。 然 而 与 操作 系统 不 
同 的 是 ， 超 级 管理 程序 更 倾向 于 确 光 养 星 一 一 它们 的 主要 功能 是 配置 系统 ， 然 后 就 置身 事 外 ， 允 
许 分 配给 分 区 的 硬件 直接 与 分 区 上 的 操作 系统 一 起 工作 。 


9. 3.4 与 系统 虚拟 机 的 比较 
超级 管理 程序 与 传统 的 系统 虚拟 机 类 似 ， 都 在 最 高 特权 模式 下 运行 。 它 们 之 间 最 本 质 的 区 
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别 是 超级 管理 程序 需要 硬件 支持 并 且 要 工作 在 一 个 特殊 的 模式 下 ， 而 系统 虚拟 机 则 可 以 直接 在 
标准 的 未 经 修改 的 硬件 上 执行 。 逻 辑 划 分 系统 上 的 客户 操作 系统 在 特权 模式 下 工作 ， 与 在 本 地 
硬件 上 的 工作 模式 一 样 ， 而 在 传统 的 系统 虚拟 机 上 ， 客 户 操 作 系 统 是 工作 在 用 户 模 式 上 。 划 分 系 
统 上 的 应 用 程序 差不多 是 按 本 地 硬件 速度 在 执行 ， 尤 其 在 使 用 专用 分 区 时 。 

当前 IBM zSeries (System/370 后 代 ) 中 的 系统 虚拟 机 能 够 支持 非常 大 数量 的 虚拟 机 ， 可 以 
是 系统 中 处 理 器 数目 的 若干 倍 。 相 比较 来 说 ， 因 为 目标 市 场 期 望 的 高 性 能 需求 和 故障 隔离 需求 ， 
划分 系统 中 分 区 数目 限制 得 较 小 ， 例 如 ， 一 个 64 路 的 HP Superdome 系统 只 支持 不 超过 64 个 
分 区 。 

钦 辑 划分 技术 是 否 比 传 统 基于 软件 的 虚拟 机 更 好 ， 这 个 问题 已 经 争论 了 很 入 。 软 件 虚拟 机 
提供 了 一 种 在 未 经 更 改 的 硬件 上 构建 虚拟 系统 的 更 简洁 的 方法 ， 如 可 以 在 任意 一 个 原始 的 未 改 
变 的 体系 结构 上 实现 。 同 样 ， 增 加 特殊 的 硬件 功能 部 件 使 得 多 个 操作 系统 可 以 在 机 器 上 共存 ， 实 
际 上 消除 了 虚拟 机 监督 程序 运行 在 其 自身 副本 上 的 可 能 性 。 但 是 ， 至 少 在 IBM 中 ， 纯 软件 的 虚 
拟 机 方法 在 出 现 不 久之 后 就 已 经 被 加 入 特殊 的 硬件 协助 来 提高 VM 性 能 。 事 实 上 ， 当 IBM 设计 
PR/SM 硬件 / 微 码 功能 部 件 时 ， 设 计 中 不 仅 包含 支持 逻辑 划分 技术 的 特殊 机 制 ， 而 且 同 样 提供 了 
那些 能 进一步 改善 传统 系统 虚拟 机 性 能 的 机 制 。 


9.3.5 对 逻辑 分 区 的 硬件 支持 


尽管 大 部 分 监控 功能 可 以 在 超级 管理 程序 软件 中 实现 ， 我 们 仍然 需要 对 硬件 实现 做 一 些 改 
变 以 支持 逻辑 划分 。 

超级 管理 程序 状态 宵 存 器 ， 超级 管理 程序 的 状态 可 能 包含 私有 的 寄存 器 集合 ， 这 些 寄存 器 
不 能 被 其 他 模式 下 的 软件 访问 。 例 如 ， 如 我 们 不 久 要 看 到 的 ， 有 一 些 专用 的 寄存 器 被 用 来 隔离 不 
同 分 区 的 实际 存储 器 以 及 超级 管理 程序 所 使 用 的 实际 存储 器 。 

复制 寄存 器 : 根据 超级 管理 程序 被 调用 的 频率 ， 可 能 需要 复制 一 些 公 共 的 体系 结构 寄存 器 。 
例如 ，Amdahl 的 MDF (Doran 1988) 复制 所 有 通用 寄存 器 和 其 他 寄存 器 ， 除 了 超级 管理 程序 模 
式 下 不 使 用 的 浮 点 寄存 器 。 被 复制 的 寄存 器 在 模式 转换 时 不 需要 被 保存 ， 也 不 占用 存储 器 的 空 
间 一 一 这 在 实际 存储 器 大 小 非常 小 的 年 代 ， 曾 经 是 一 个 很 重要 的 因素 。 采 用 复制 的 另 一 个 原因 
是 寄存 器 的 物理 分 割 提供 了 额外 级 别 的 保护 ， 特 别 是 对 超级 管理 程序 软件 中 的 错误 。 

超级 管理 程序 存储 器 : 超级 管理 程序 需要 访问 存储 器 ， 尤 其 是 在 保存 各 个 分 区 的 信息 以 及 
在 模式 转换 时 保存 每 个 分 区 的 相关 状态 时 。 因 此 ， 非 划分 系统 中 被 操作 系统 控制 的 物理 存储 器 ， 
在 逻辑 划分 系统 中 必须 被 超级 管理 程序 支配 。 

实现 它 的 一 个 方法 是 将 物理 存储 器 划分 为 多 个 分 离 的 区 域 。 其 中 一 个 区 域 分 配给 超级 管理 
程序 ， 其 他 的 每 个 区 域 被 分 配给 系统 中 当前 活 牙 的 各 个 逻辑 分 区 ， 如 图 9-7 所 示 。 与 每 个 分 区 相 
对 应 的 是 一 个 分 区 存储 器 基 址 寄存 器 (partition memory base register, PMBR) 和 一 个 分 区 存储 器 
限界 寄存 器 (partition memory limit register, PMLR)， 它 们 限定 了 分 区 能 访问 的 物理 存储 器 的 
边界 。 

如 果 超 级 管理 程序 被 分 配 了 物理 存储 器 低地 址 空间 的 一 个 合适 大 小 的 连续 块 ， 那 么 在 超级 
管理 程序 模式 下 就 可 以 跳 过 存储 器 访问 地 址 转换 的 步骤 一 一 此 时 指令 中 的 有 效 地 址 与 物理 地 址 
相同 。 而 分 区 中 的 地 址 必须 被 重新 定位 。 

一 个 分 区 产生 的 虚 地 址 通过 标准 的 地 址 转换 机 制 ( 见 A. 3.4 节 ) 被 转换 成 一 个 实地 址 ， 然 
后 将 这 个 实际 地 址 加 上 当前 分 区 的 PMBR 所 包含 的 值 ， 以 确定 地 址 的 实际 物理 位 置 。 为 了 避免 
一 个 分 区 访问 到 其 他 分 区 分 配 到 的 物理 存储 器 ， 计 算出 的 物理 地 址 必须 要 与 PMLR 中 的 值 比较 。 
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一 个 超出 PMLR 中 指示 位 置 的 访问 操作 意味 着 ， 分 区 要 访问 的 这 个 实际 存储 器 位 置 超出 了 分 区 
中 的 操作 系统 期 望 的 实际 存储 器 大 小 ， 此 时 应 该 产生 一 个 实际 存储 器 异常 。 


TN 
E 





分 区 2 的 实际 | k 
存储 器 | k 
<< 
| PMBR1 
o EE 
PMBR2 
分 区 1 的 实际 oS 
存储 器 
Hypervisor 的 
实际 存储 器 





系统 的 物理 
存储 器 


图 9-7 分 区 的 实际 存储 器 到 物理 可 用 存储 器 的 映射 。 如 果 为 每 个 分 区 分 配 了 物理 存储 器 的 连续 
KK, 那么 映射 表 就 如 图 中 所 示 很 简单 ， 仅 需要 两 个 指针 


通过 在 地 址 转换 处 理 中 增加 一 个 步骤 ， 可 以 由 硬件 来 完成 从 分 区 的 实际 地 址 向 物理 地 址 的 
转换 。 但 是 ， 在 包含 硬件 TLB 的 处 理 器 中 这 个 代价 可 以 消除 ， 只 需 简单 的 将 TLB 表 项 中 的 实际 


.的 存储 器 地 址 替换 为 物理 地 址 。 前 提 是 分 配给 一 个 分 区 的 实际 存储 器 大 小 是 整数 个 页 面 ， 并 且 


它 小 于 实际 可 用 的 物理 存储 器 大 小 。 事 实 上 ， 系 统 中 所 有 分 区 的 实际 存储 器 大 小 之 和 必须 小 于 
物理 存储 器 的 大 小 ， 因 为 需要 为 超级 管理 程序 保留 一 部 分 物理 地 址 空间 。 这 也 说 明了 为 什么 典 
型 的 逻辑 分 区 系统 只 允许 有 少数 逻辑 分 区 。 

任 一 个 TLB 失效 处 理 都 取决 于 系统 实现 的 是 硬件 还 是 软件 管理 的 TLB 。 在 一 个 硬件 管理 的 
TLB 中 ， 一旦 发 生 失 效 ， 硬件 将 遍历 整个 页 表 找 出 页 面 映 射 关 系 。 硬 件 找到 虚 地 址 对 应 的 实际 
地 址 时 ， 就 替换 一 个 TLB 表 项 ， 并 写 人 新 的 虚 地 址 和 实际 地 址 。 但 除 此 之 外 ,还 要 用 分 区 的 
PMBR 值 来 确定 TLB 表 项 中 的 物理 地 址 。 

为 了 高 效 和 安全 地 映射 到 物理 地 址 ， 包 含 物理 地 址 信息 的 页 表 对 每 个 分 区 上 的 操作 系统 必 
须 是 不 可 见 的 。 因 此 对 页 表 的 修改 必须 在 超级 管理 程序 模式 下 完成 。 为 了 对 页 失效 进行 有 效 处 
H, TLB 中 的 每 个 表 项 都 标记 了 它 所 属 的 分 区 。 如 图 9-8 所 示 ， 页 表 指 针 受 超级 管理 程序 的 控 
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制 ， 并 且 在 一 个 分 区 被 其 他 分 区 替换 时 要 重新 加 载 为 正确 的 指针 。 

如 果 处 理 器 实现 了 软件 管理 的 TLB， 每 个 分 区 都 期 望 能 看 到 一 个 TLB ， 因 此 需要 对 每 个 分 
区 的 TLB 进行 虚拟 化 。 如 果 开 销 是 可 以 接受 的 ， 虚 拟 TLB 可 以 随 当前 活路 分 区 的 变化 被 换 入 换 
HIE TLB, BW, H TLB 对 一 个 处 理 器 的 所 有 虚拟 TLB 充当 cache 的 角色 ， 由 超级 管理 程 
序 侦 听 分 区 访问 TLB 的 所 有 动作 ， 并 做 出 适当 的 替换 决定 。 


| 
| 当前 页 表 指 针 
分 区 ID 虚拟 地 址 ”物理 地 址 
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图 9-8 逻辑 划分 中 的 硬件 TLB 的 适应 。 指 针 表 很 小 ， 可 以 存储 在 硬件 中 。 当 前 页 表 指 针 上 加 载 的 是 
指针 表 中 与 当前 活动 分 区 相对 应 的 表 项 


中 断 处 理 

对 于 超级 管理 程序 来 说 有 三 种 类 型 的 中 断 ， 它 们 是 由 超级 管理 程序 自身 发 起 的 操作 导致 的 。 
一 种 是 由 于 VO 设备 响应 一 个 对 它 的 操作 状态 的 查询 引发 的 中 断 。 第 二 种 中 断 来 自 系统 管理 控 
制 台 ， 系 统管 理 者 通过 它 对 超级 管理 程序 发 出 命令 ， 如 需要 创建 一 个 新 的 分 区 。 第 三 种 类 型 的 中 
断 包 括 那些 分 区 向 超级 管理 程序 请 求 服务 引发 的 中 断 。 

在 机 器 检查 中 断 的 情况 下 ， 如 因为 一 个 无 法 修复 的 硬件 故障 ， 超 级 管理 程序 首先 要 确定 机 
器 故障 是 否 影响 了 超级 管理 程序 和 它 包含 的 表 项 。 如 果 是 这 样 的 话 ， 超 级 管理 程序 就 没有 太 多 
可 做 的 工作 了 。 可 以 通过 检查 表格 的 内 容 来 确定 受到 影响 的 分 区 ， 并 重新 启动 引导 这 些 分 区 。 男 
一 方面 ， 如 果 超 级 管理 程序 并 没有 受到 机 器 检查 的 影响 ， 那 么 它 就 为 那些 在 中 断 发 生 时 正在 运 
行 的 分 区 仿真 一 个 机 器 故障 检查 ， 并 跳 转 到 由 客户 操作 系统 注册 的 专用 例 程 。 

这 是 一 个 针对 客户 操作 系统 意义 上 的 硬件 中 断 的 通用 技术 。 与 系统 虚拟 机 的 VMM 一 样 ， 超 
级 管理 程序 是 第 一 个 要 处 理 中 断 的 点 ,首先 由 超级 管理 程序 确定 中 断 是 对 它 自身 还 是 对 系统 上 
的 某 个 分 区 的 ， 如 果 中 断 针 对 的 是 某 个 当前 不 在 执行 的 分 区 ， 可 将 它 加 入 队列 等 待 一 段 时 间 ， 如 
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在 分 区 被 重新 激活 后 立即 处 理 。 某 些 特殊 情况 下 ， 分 区 可 以 被 立即 激活 使 得 中 断 可 以 得 到 处 理 ， 
中 断 处 理 之 后 ， 这 个 分 区 仍然 可 以 继续 处 于 控制 状态 或 者 可 将 控制 权 交 还 给 中 断 发 生 时 正在 执 
行 的 分 区 。 

而 软件 中 断 (或 者 陷阱 ) 的 情况 就 相当 简单 了 。 特 权 模 式 下 的 客户 操作 系统 就 可 以 处 理 中 
断 ， 不 需要 超级 管理 程序 介入 。 


9.3.6 超级 管理 程序 服务 接口 


至 此 我 们 假设 一 个 在 分 区 系统 上 工作 的 操作 系统 应 该 与 在 原始 系统 上 是 没有 变化 的 。 对 超 
级 管理 程序 的 硬件 支持 对 改善 这 种 系统 的 性 能 是 大 有 帮助 的 。 应 该 清楚 的 一 点 是 ， 如 果 一 个 客 
户 操作 系统 知道 它 是 在 一 个 超级 管理 程序 环境 上 运行 的 ， 可 能 会 得 到 更 好 的 性 能 。 回 顾 一 下 第 8 
章 中 讨论 VM 时 ， 我 们 也 提 到 一 个 虚拟 机 系统 的 性 能 可 以 通过 VMM 和 客户 操作 系统 之 间 的 握手 
机 制 来 提高 。 

超级 管理 程序 和 客户 操作 系统 的 通信 是 通过 OS 对 超级 管理 程序 的 调用 实现 的 。 这 是 在 虚拟 
机 的 ISA 之 上 的 另 一 个 接口 ， 称 为 超级 管理 程序 服务 接口 。 对 这 个 接口 的 一 个 典型 的 调用 通常 
包含 一 个 申请 管理 资源 的 请 求 ， 这 个 资源 原本 一 般 由 OS 控制 ， 但 如 果 由 VMM 控制 的 话 可 能 会 
管理 得 更 好 。 例 如 IBM PowerPC 上 的 硬件 页 表 管理 (Engebretson, Corrigan 和 Bergner 2001) 。 

PowerPC 有 一 个 具有 倒置 页 表 结 构 的 结构 化 页 表 。 当 一 个 TLB 缺失 发 生 时 硬件 将 访问 倒置 
WH, 倒置 页 表 也 被 称 为 处 理 器 的 硬件 页 表 (Hardware page table，HPT) 。 当 在 本 地 模式 下 运行 
时 ， 如 果 在 HPT 中 没有 发 现 表 项 ， 就 向 操作 系统 发 送 一 个 缺 页 中 断 ， 再 由 操作 系统 确定 一 个 合 
适 换 出 的 页 面 并 在 HPT 中 创建 一 个 新 的 人 口 。 在 分 区 系统 中 ， 人 情形 稍 有 不 同 。 此 时 ， 客 户 操作 
系统 将 其 实际 地 址 映射 到 物理 地 址 ， 因 此 HPT 中 的 映射 表明 了 存储 器 中 页 面 从 虚拟 到 物理 的 映 
射 。 由 于 安全 性 的 原因 ， 客 户 操作 系统 对 这 些 映射 是 不 能 访问 的 ， 而 超级 管理 程序 对 HPT 有 完 
全 的 控制 权 。 发 生 缺 页 中 断 时 ， 客 户 操 作 系统 并 不 直接 修改 HPT。 更 确切 地 说 ， 它 调用 超级 管 
理 程序 ， 通 过 超级 管理 程序 系统 接口 的 访问 在 表 中 创建 一 个 新 的 人 口 。 

图 9-9 中 描述 了 IBM PowerPC 在 超级 管理 程序 接口 中 与 页 表 管理 相关 的 一 些 调用 。 


- ， Find any valid entry for a 
Find_validOQ given virtual address 


InvalidateQ) Invatidate a specified entry 













add_validate(Q) Add a new valid entry 


, Modify protection status for 
modi fy_ppQ a specified entry 


图 9-9 IBM PowerPC iSeries 超级 管理 程序 接口 中 支持 页 表 管 理 的 一 些 调用 


当然 也 可 以 允许 超级 管理 程序 接管 整个 页 表 管 理 ， 而 不 仅仅 是 为 操作 系统 提供 服务 来 帮助 
它 实现 管理 功能 。 然 而 ， 超 级 管理 程序 仅仅 执行 机 制 会 比 它 同 时 实现 机 制 和 策略 更 有 优势 。 一 般 
来 说 ， 策 略 最 好 由 操作 系统 来 执行 ， 因 为 它 对 分 区 和 应 用 程序 的 需求 有 更 好 的 了 解 。 此 外 ， 把 超 
级 管理 程序 限制 在 机 制 上 可 以 使 其 更 加 简单 并 且 不 容易 出 错 。 

正如 我 们 在 系统 VM 情况 下 所 提 到 的 ， 超 级 管理 程序 服务 接口 方法 的 缺点 在 于 操作 系统 不 
再 是 可 移植 的 。 当 操作 系统 移植 到 其 他 平台 时 ， 对 超级 管理 程序 的 调用 很 可 能 要 做 改变 。 这 可 能 
的 确 是 个 问题 ， 即 使 是 同一 个 平台 上 实现 一 个 新 的 超级 管理 程序 ， 新 的 版 本 也 应 该 具有 对 操作 
系统 的 反 向 兼容 性 。 
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9.3.7 动态 划分 


为 了 提供 更 广泛 的 操作 ， 划 分 技术 必须 允许 一 个 正在 运行 系统 的 所 有 可 能 的 配置 。 有 两 种 
类 型 的 变化 可 能 会 发 生 。 

1. 一 个 分 区 完成 了 它 的 任务 ， 一 个 新 的 分 区 已 经 准备 好 被 安置 到 系统 中 。 

2. 一 个 分 区 发 现 自 身 需 要 改变 ， 为 此 要 对 它 的 配置 进行 修改 。 例 如 ， 处 理 器 数目 、 存 储 器 
大 小 或 者 附加 的 设备 。 

第 一 种 类 型 的 改变 已 经 被 大 多 数 逻 辑 划分 系统 所 支持 。 为 了 关闭 一 个 分 区 ， 超 级 管理 程序 
首先 必须 收回 所 有 这 个 分 区 拥有 的 资源 。 出 于 安全 性 的 目的 ， 它 可 能 需要 对 被 分 区 腾 出 的 存储 
器 和 磁盘 中 进行 处 理 ， 擦 除 其 中 包含 的 信息 或 者 使 这 些 信息 不 可 读 。 它 还 可 能 需要 做 一 些 测试 ， 
以 确保 所 有 释放 硬件 的 操作 与 即将 引导 的 系统 的 需求 是 完全 相同 的 。 这 些 释放 的 资源 被 放 入 资 
源 池 中 ， 新 的 分 区 再 从 中 获取 它 所 分 配 的 资源 。 

当 请 求 配置 一 个 新 的 分 区 时 ， 超 级 管理 程序 检查 分 区 的 资源 需求 ， 并 确定 资源 池 中 可 用 的 
资源 是 否 能 够 满足 它 的 要 求 。 如 果 需 求 不 能 被 满足 ， 如 没有 足够 的 处 理 器 或 存储 器 ， 超 级 管理 程 
序 将 返回 一 个 请 求 失败 的 消息 ， 并 且 指 示 失 败 的 原因 。 如 果 可 以 满足 资源 请 求 ， 就 把 期 望 获得 的 
资源 从 资源 池 中 删除 ， 并 创建 出 一 个 新 的 分 区 ， 这 时 就 可 以 在 分 区 上 加 载 客户 操作 系统 。 

实际 上 这 种 技术 可 以 用 来 把 一 个 分 区 从 当前 的 形态 迁移 到 新 的 形态 。 对 这 种 转移 的 需求 可 
能 来 自 两 个 方面 。 第 一 个 可 能 是 分 区 的 某 个 部 件 发 生 了 不 可 恢复 的 硬件 故障 。 这 种 情况 下 ， 超 级 
管理 程序 可 以 尝试 利用 资源 池 中 的 资源 配置 一 个 相同 的 分 区 ， 然 后 在 关闭 旧 分 区 之 前 ， 将 其 状 
态 移 植 到 这 个 新 分 区 上 。 

另 一 种 可 能 是 某 些 分 区 突然 产生 的 硬件 需求 。 例 如 ， 一 个 分 区 由 于 页 面 请 求 的 增加 已 经 导 
致 性 能 严重 下 降 ， 这 时 可 以 创建 一 个 新 的 具有 相同 配置 的 分 区 ， 不 同 的 是 它 具 有 更 大 的 存储 器 ， 
然后 将 旧 的 分 区 中 的 状态 移植 到 新 分 区 上 。 当 然 ， 这 样 的 移植 只 有 在 分 区 上 的 操作 系统 能 够 动 
态 改变 存储 器 大 小 时 才 有 用 。 

9.3.2 节 中 , 我 们 已 经 看 到 了 在 IBM System/390 LPAR 中 ,分 区 VO 资源 的 重 构 如 何以 动态 
的 方式 完成 。 可 以 采用 一 种 类 似 的 技术 来 增加 分 区 的 处 理 器 资源 分 配 。 然 而 ， 存 储 器 的 重 分 配 却 
成 为 一 个 问题 。 这 个 问题 与 在 动态 存储 器 分 配 中 面临 的 问题 相似 一 一 要 求 将 分 区 的 实际 存储 器 
映射 到 连续 物理 块 上 的 限制 必须 被 放松 。 因 些 ， 必 须 在 超级 管理 程序 中 提供 支持 ， 将 若干 片 物理 
存储 器 颖 合 在 一 起 ， 造 成 存在 一 个 连续 的 实际 存储 器 的 假象 。 

附录 A. 3. 4 中 讨论 了 分 段 和 分 页 的 方法 如 何 帮 助 解决 处 理 器 上 动态 存储 器 分 配 问 题 。 相 似 
的 机 制 可 以 被 用 在 分 区 的 存储 分 配 上 。 为 了 利用 多 数 系统 中 都 有 的 分 页 硬件 ， 分 区 之 间 的 存储 
器 分 配 应 该 按照 页 面 的 粒度 进行 。 这 是 可 行 的 ， 只 是 一 个 存储 器 模块 的 故障 可 能 会 影响 很 多 个 
分 区 。 而 且 系统 中 物理 页 的 数量 可 能 会 相当 大 ， 以 至 于 超级 管理 程序 仅 为 了 记录 页 面 使 用 就 需 
要 很 大 的 空间 。 例 如 每 当 关闭 一 个 分 区 时 ， 超 级 管理 程序 都 需要 检查 大 量 的 表 项 ， 确 保 属于 分 区 
的 每 个 页 面 都 已 被 无 效 并 且 释 放 它 。 这 个 问题 可 以 通过 选择 一 个 合适 的 分 配 粒 度 来 缓和 ， 这 个 
粒度 应 该 远大 于 页 面 大 小 ,但 仍 比 标准 主 存储 器 小 很 多 ,例如 256M。 

人 允许 动态 扩充 甚至 动态 缩小 分 区 的 存储 器 空间 ， 在 硬件 上 意味 了 仅仅 包含 一 对 PMBR-PMLR 
是 不 够 的 。 为 了 解决 这 个 问题 ， 超 级 管理 程序 必须 给 每 个 分 区 保存 块 映射 表 ， 记 录 实 际 存储 器 的 
不 同 区 域 和 物理 存储 器 之 间 的 对 应 关系 。 例 如 ， 图 9-10 中 为 每 个 分 区 分 配 了 16 个 指针 ， 假 设 块 
大 小 为 256MB ， 支 持 的 存储 器 最 大 可 达到 4GB。 
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系统 的 物理 存储 器 
图 9-10 ”使 用 块 (chunk) 的 划分 ， 实 际 地 址 空间 的 动态 分 配 


9.3.8 动态 LPAR 


IBM PowerPC pSeries 服务 器 (Jann, Browning 和 Burugula 2003) 引 NTE AE 
资源 而 无 需 重新 引导 分 区 的 能 力 。 这 被 称 作 动态 逻辑 划分 ， 或 者 DLPAR。 由 DLPAR 迁移 的 资源 
与 在 分 区 启动 时 就 分 配 的 资源 有 同样 的 能 力 。 资 源 的 迁移 通常 需要 以 下 几 个 步 又。 

1. 向 分 区 的 客户 AX 操作 系统 发 出 请 求 ， 要 求 它 释 放 某 个 资源 ， 并 且 如 果 必 需 的 话 ， 使 它 
进入 静止 状态 。 

2. AIX 操作 系统 停止 该 资源 并 将 其 释放 给 超级 管理 程序 ， 超 级 管理 程序 把 它 放 人 空闲 资源 池 中 。 

3. 再 次 通过 系统 控制 台 向 超级 管理 程序 发 出 请 求 ， 把 资源 分 配给 另 一 个 需要 它 的 特定 分 区 。 

4. 分 配 成 功 后 ， 向 此 分 区 上 的 AIX 操作 系统 发 出 请 求 ， 告 知 它 获取 资源 并 配置 使 用 。 

AIX 操作 系统 内 核 已 被 改进 ， 可 以 完全 在 虚拟 模式 下 运行 以 实现 DLPAR。 实 际 上 ，IBM 系 
统 中 存储 器 分 配 的 粒度 是 以 页 面 为 单位 的 。 处 理 器 的 移 除 也 已 经 在 AIX 上 实现 ， 从 而 在 处 理 器 
失效 时 可 以 支持 适度 的 降级 。 处 理 器 的 扩充 也 是 在 AIX 上 添加 的 一 个 支持 DLPAR 的 部 分 。 


9. 3.9 扩充 超级 管理 程序 的 任务 


超级 管理 程序 实质 上 是 为 系统 提供 的 硬件 平台 的 扩展 。 它 所 提供 的 服务 包含 控制 系统 硬件 
部 件 的 操作 。 
。 超级 管理 程序 可 以 监控 系统 不 同 部 分 的 电能 使 用 情况 ， 并 且 把 这 些 信 息 反馈 给 分 区 。 分 
区 上 的 操作 系统 对 高 耗 电 事件 作出 反应 ， 并 采取 补偿 的 措施 ， 中 断 对 耗 电量 大 的 特定 资 
源 的 需求 。 
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。 超 级 管理 程序 在 硬件 故障 事件 上 可 以 提供 类 似 的 功能 。 如 果 在 计算 过 程 中 检测 到 一 个 错 
误 并 且 经 过 反复 尝试 并 不 能 消除 错误 ， 超 级 管理 程序 就 把 所 有 使 用 故障 处 理 器 的 分 区 转 
移 到 空闲 处 理 器 上 ， 隔 离 失败 的 处 理 器 甚至 用 好 的 处 理 器 把 它 蔡 换 掉 ， 这 个 过 程 不 需要 
474] 暂停 系统 的 其 他 部 件 。 
超级 管理 程序 传统 的 任务 从 本 质 上 来 说 都 是 被 动 的 一 一 超级 管理 程序 从 系统 管理 者 处 获得 
命令 ， 如 果 满 足 需 求 则 完成 命令 ， 如 果 不 能 满足 要 求 则 通知 管理 员 。 这 很 大 程度 上 归 因 于 超级 管 
理 程序 的 发 展 是 作为 硬件 的 扩展 进行 的 ， 因 此 期 望 超级 管理 程序 能 尽 可 能 简单 、 可 检验 并 且 是 
无 错 的 。 可 以 预见 ， 超 级 管理 程序 将 在 构成 系统 的 分 层 结构 中 承担 一 个 强大 的 软件 层次 的 角色 ， 
它 可 以 执行 机 制 和 策略 来 配置 和 管理 系统 中 的 资源 ， 并 基于 若干 不 同 的 因素 自主 做 出 决策 ， 这 
些 因素 如 下 所 列 : 
。 环境 因素 ， 例 如 硬件 的 能 量 消 耗 、 温 度 或 者 可 靠 性 。 
。 商业 因素 ， 如 系统 的 安全 性 和 与 系统 用 户 约定 的 各 种 系统 级 目标 。 
。 操作 因素 ， 如 硬件 利用 的 效率 。 
© 价格 因素 ， 如 系统 整体 产生 的 收益 。 
图 9-11 描述 了 为 了 获得 系统 负载 平衡 ， 处 理 器 和 其 他 资源 在 一 个 动态 划分 系统 中 迁移 所 得 
到 的 时 间 序 列 。 
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图 9-11 动态 划分 的 影响 实例 。 本 图 显示 了 三 个 分 区 在 两 个 不 同时 刻 对 资源 的 使 用 情况 。 
a 图 是 系统 刚 进行 初始 化 后 资源 的 使 用 情况 ， 它 表现 出 一 定 程度 的 物理 局 部 性 。 然 
而 随 着 时 间 变 化 b 图 当 进程 为 了 获得 更 好 的 负载 平衡 而 进行 迁移 时 ， 运 行 这 些 进 程 
的 分 区 的 物理 范围 开始 与 其 他 分 区 合并 。 
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实际 上 ， 随 着 大 规模 计算 系统 复杂 性 的 增 大 ， 系 统管 理 员 在 高 效 和 安全 地 管理 系统 资源 上 
面临 的 困难 也 将 越 来 越 大 ， 更 不 必 说 用 户 了 。 因 此 系统 将 为 分 配 和 重 构 资源 提供 越 来 越 多 的 自 
动 功 能 。 系 统 将 监控 自身 的 行为 ， 学 习 并 适应 变化 的 形式 ， 而 不 需要 操作 员 介 入 。 结 果 是 在 将 来 
的 这 种 “自治 ”系统 中 ， 超 级 管理 程序 很 有 可 能 会 起 到 中 心 作用 (IBM 2001) 。 


9.4 案例 研究 ，Cellular Disco 系统 虚拟 机 一 一 基于 划分 技术 


IBM 的 370/VM 系统 和 VMware 的 GSX, ESX 服务 器 ， 从 某 种 意义 来 说 实际 上 是 划分 系统 
以 及 在 单个 硬件 平台 上 提供 多 个 操作 系统 映像 的 技术 。 我 们 在 第 8 章 中 详细 讨论 了 这 些 系统 。 如 
果 从 分 隔 多 个 操作 系统 的 角度 来 看 ， 这 些 系统 和 逻辑 划分 是 相似 的 一 一 软件 故障 大 都 能 限制 在 
单个 客户 操作 系统 映像 范围 内 ， 它 们 不 会 影响 到 其 他 的 客户 操作 系统 映像 。 但 是 与 逻辑 划分 系 
统 中 的 超级 管理 程序 相 比 ， 这 些 系统 中 的 VMM 软件 的 规模 更 大 ， 发 生 错 误 的 几率 也 要 高 得 多 。 
为 了 使 系统 VM 具有 机 群 虚拟 化 的 能 力 ， 它 需要 能 够 仿真 机 群 或 者 物理 分 区 系统 的 物理 故障 隔 
离 特征 。 这 就 为 VMM 强加 了 一 些 额 外 的 要 求 。 特 别 地 ， 仿 真 虚拟 机 群 中 的 某 个 多 处 理 节点 的 每 
一 组 物理 节点 都 应 该 独立 的 运行 VYMM， 这 样 一 个 节点 的 硬件 故障 才 不 会 导致 机 群 中 的 其 他 虚拟 
节点 失效 。 

在 后 面 几 节 中 ， 我 们 通过 介绍 斯 坦 福 大 学 开发 的 Cellular Disco 系统 (Govil 等 人 1999), 来 
说 明 传统 的 系统 VM 中 故障 隔离 支持 的 基本 原理 ， 这 个 系统 源 于 一 个 被 称 作 Disco (Bugnion 等 
人 1997) 的 早期 传统 系统 VM。 


9. 4.1 Cellular Disco 系统 概述 


正如 我 们 在 第 8 章 中 看 到 的 ， 高 效 虚 拟 化 的 一 个 充分 条 件 是 系统 要 有 拦截 所 有 由 虚拟 机 执行 
的 特权 操作 的 能 力 。Cellular Disco 被 设计 成 运行 在 MIPS 多 处 理 器 系统 上 ， 它 利用 MIPS 系统 提 
供 的 三 个 级 别 的 特权 达到 了 这 个 要 求 一 一 这 三 级 特权 分 别 是 用 户 模 式 、 半 特权 管理 程序 模式 和 
特权 模式 ， 大 部 分 在 MIPS 上 运行 的 操作 系统 只 使 用 其 中 两 种 模式 : 用 户 和 特权 模式 。Cellular 
Disco 强迫 虚拟 系统 只 能 运行 在 用 户 和 半 特 权 管 理 程 序 模式 ， 并 把 特权 模式 的 使 用 权限 制 给 虚拟 
机 监控 程序 。 图 9-12 中 显示 的 是 当 虚 拟 机 上 的 操作 系统 执行 一 条 特权 指令 时 触发 的 陷阱 
(traps) ， 因 为 在 管理 程序 模式 下 不 允许 执行 这 种 类 型 的 指令 ， 随 后 由 YMM 处 理 这 个 陷阱 ， 并 解 
释 指 令 。 此 外 ，MIPS 体系 结构 强制 所 有 管理 程序 模式 和 用 户 模 式 下 的 存储 器 访问 操作 都 要 经 过 
动态 地 址 变换 过 程 。 操 作 系 统 对 实际 存储 器 的 所 有 访问 都 会 被 映射 到 物理 存储 器 的 一 个 区 域 上 ， 
这 个 区 域 与 其 他 虚拟 机 上 操作 系统 的 寻 址 区 域 都 是 不 同 的 。 

虚拟 机 监控 程序 也 会 拦截 虚拟 机 上 运行 的 客户 操作 系统 的 IO 请 求 。 检 查 请 求 的 有 效 性 之 
E, VMM 决定 把 请 求 转发 给 实际 的 IO 设备 或 者 自己 处 理 。VMM 自己 处 理 IO 请 求 的 一 个 情 
况 是 虚拟 分 页 。 在 标准 的 虚拟 机 实现 中 ， 有 两 个 级 别 的 分 页 ， 它 们 分 别 由 操作 系统 和 VMM 执 
行 。 有 可 能 在 操作 系统 请 求 将 一 个 页 面 写 出 到 它 的 分 页 磁盘 时 ，VMM 可 能 已 经 将 页 面 写 出 到 自 
己 的 分 页 磁盘 。 在 一 个 简单 的 VMM 实现 中 ， 遇 到 这 样 的 请 求 时 ，VMM 首先 将 页 面 从 自己 的 分 
页 磁盘 取 回 ， 然 后 将 它 写 人 客户 操作 系统 的 分 页 设备 中 。Cellular Disco 通过 俘获 每 个 对 客户 操作 
系统 分 页 磁盘 的 读 写 操作 ， 使 得 这 个 过 程 更 加 高 效 。 它 保存 了 一 个 映射 所 有 页 面 状态 的 内 部 数 
据 结构 。 当 观察 到 一 个 写 出 页 面 到 内 核 分 页 磁盘 的 请 求 时 ，Cellular Disco 发 现 这 个 页 面 已 经 被 写 
出 到 它 自身 的 分 页 磁盘 中 ， 就 简单 的 给 内 部 映射 作 注 解 ， 指 出 实际 的 页 面 位 置 。 当 客户 操作 系统 
接着 想 要 读 取 分 页 磁盘 时 ， 就 查阅 这 个 映射 确定 读 取 内 容 的 真实 位 置 。 
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a) 原始 系统 b ) Cellular Disco 
图 9-12 Cellular Disco 中 各 个 部 分 的 操作 模式 
9.4.2 FAES 


Cellular Disco 虚拟 机 中 实际 存储 器 到 物理 存储 器 的 映射 是 用 两 个 映射 关系 实现 的 。pmap 数据 结 
构 由 实际 地 址 索引 ， 返 回 系统 中 相应 的 物理 地 址 。memmap 数据 结构 把 物理 地 址 映射 回 实 际 地 址 。” 

在 物理 划分 机 制 和 一 些 逻 辑 划 分 机 制 中 ， 物 理 存储 器 被 分 配给 系统 中 不 同 的 虚拟 机 ， 并 且 
虚拟 机 中 每 个 实际 存储 器 位 置 都 与 一 个 物理 存储 器 位 置 相 关联 。 与 它们 不 同 的 是 ，Cellular Disco 
像 一 个 传统 的 系统 虚拟 机 一 样 操作 并 虚拟 化 实际 存储 器 。 这 允许 实际 存储 器 的 过 委托 (overcom- 
mitment) 系统 中 所 有 运行 的 虚拟 机 占有 的 实际 存储 器 之 和 可 以 远大 于 系统 中 可 用 物理 存储 
器 的 容量 。 每 个 虚拟 机 被 分 配 一 个 驻 留 集 大 小 ， 这 个 大 小 可 以 根据 系统 物理 存储 器 分 配 情况 动 
态 调整 。VMM 自身 包括 一 个 利用 页 面 使 用 信息 的 页 面 替 换 机 制 。 假 如 页 面 中 包含 不 需要 的 数 
据 ， 内 部 数据 结构 中 的 注释 允许 VMM 对 此 做 出 检测 从 而 避免 将 页 面 写 出 到 磁盘 时 不 必要 的 开 
销 。 这 中 方法 是 很 有 用 的 ， 例 如 ， 当 需要 换 出 的 页 面 是 虚拟 机 中 一 个 未 分 配 的 页 时 。 

除了 操作 系统 接口 为 应 用 程序 提供 的 一 般 功 能 外 ，Cellular Disco 还 为 应 用 程序 提供 了 更 多 的 
功能 。 例 如 ， 把 一 个 大 的 应 用 划分 成 多 个 进程 分 配给 不 同 的 虚拟 机 来 完成 ， 但 这 些 虚拟 机 共享 存 
储 器 的 全 局 区 域 。Cellular Disco 提供 了 系统 调用 使 得 应 用 程序 中 的 进程 能 够 注册 这 些 共享 区 域 ， 
注册 的 过 程 是 不 经 过 操作 系统 的 ， 因 为 所 有 的 系统 调用 都 会 被 VMM 拦截 。 图 9-13 中 显示 了 两 
个 虚拟 机 共享 代码 页 以 及 缓冲 存储 器 ， 但 是 各 自 保持 自己 的 应 用 程序 数据 区 域 。 对 一 个 共享 位 
置 的 写 操作 不 会 引起 额外 的 开销 ， 因 为 下 层 的 平台 是 一 个 共享 存储 多 处 理 器 ， 并 且 存 储 一 致 性 
保证 了 其 他 处 理 器 可 以 及 时 看 到 对 共享 区 域 的 写 操作 。 
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图 9-13 Cellular Disco 中 的 存储 器 共享 


O ”这 里 需要 注意 的 是 Celular Disco 设计 者 提 到 的 实际 存储 器 指 的 是 虚拟 机 的 物理 存储 器 ， 而 系统 中 实际 可 用 的 物 
理 存 储 器 被 称 为 机 器 存储 器 。 
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对 于 将 一 个 大 的 共享 存储 应 用 转换 成 一 个 使 用 消息 传递 和 网 络 协议 的 机 群 应 用 来 说 ， 这 个 
系统 会 是 一 个 方便 快捷 的 选择 。 唯 一 系统 开销 来 源 于 应 用 程序 需要 和 一 个 不 同 的 共享 存储 库 重 
新 链接 。Cellular Disco 负责 处 理 把 共享 区 域 的 页 面 写 人 到 分 页 磁盘 中 ， 在 将 要 写 人 分 页 磁盘 的 页 
中 附 上 所 有 共享 此 页 的 虚拟 机 的 信息 。 为 了 提高 效率 ， 它 把 这 些 信 息 放 置 在 与 换 出 页 面 数据 邻 
接 的 扇 区 上 ， 避 免 因 磁盘 扇 区 定位 导致 的 性 能 损失 。 


9.4.3 故障 隔离 


区 别 Cellular Disco 和 传统 系统 虚拟 机 的 一 个 主要 方面 是 它 对 硬件 故障 隔离 的 支持 。 硬 件 故 
障 隔离 是 机 群 系统 的 一 个 重要 特性 一 一 系统 某 个 部 分 发 生 的 硬件 故障 通常 被 控制 在 机 群 中 出 现 
故障 的 节点 上 。 其 他 节点 上 的 操作 系统 和 应 用 程序 可 以 不 受 影响 继续 工作 。 不 幸 的 是 有 一 些 严 
重 的 故障 可 能 会 导致 整个 系统 瘫 痰 。 例 如 VMM 自身 ， 它 管理 系统 的 所 有 资源 ， 很 容易 受 它 所 使 
用 的 硬件 部 件 故 障 的 影响 。 因 此 ， 把 这 些 关 键 部 分 的 数目 降 到 最 低 对 于 增加 系统 总 体 的 平均 无 
故障 时 间 (MTBF) 是 一 个 很 关键 的 因素 。 

Cellular Disco 把 硬件 看 作 是 一 组 单元 ， 如 图 9-14 所 示 ， 每 个 单元 独立 运行 自己 的 VMM 
并 且 管 理 它 包 含 的 物理 存储 器 。 一 个 单元 中 硬件 部 件 的 故障 不 会 影响 到 系统 中 不 使 用 这 个 单 
元 的 虚拟 机 。Cellular Disco 通过 保持 监控 程序 代码 的 简单 〈 小 于 50K 行 )， 并 限制 一 个 单元 
VMM 只 能 访问 属于 此 单元 的 物理 存储 器 位 置 ， 从 而 增加 系统 的 MTBF。 单 元 之 间 的 通信 通过 
使 用 一 个 仔细 设计 的 快速 远程 过 程 调用 完成 ， 该 远程 过 程 调用 作为 处 理 器 间 高 效 可 信 的 通信 
原 语 。 


eos bed 
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单元 边界 


图 9-14 Cellular Disco 中 的 故障 隔离 。 一 个 硬件 故障 仅 影 响 发 生 故 障 的 单元 上 的 虚拟 机 。 阴 影 部 分 表 
示 指 示 节 点 中 发 生 的 故障 影响 到 的 区 域 


该 系统 管理 故障 隔离 的 一 个 方法 是 限制 每 个 虚拟 机 在 一 个 固定 的 单元 集合 上 操作 。 然 而 ， 
这 种 方法 的 关键 问题 是 它 可 能 导致 系统 不 能 被 充分 利用 ， 因 为 VMM 没有 把 工作 负载 移动 到 其 他 
单元 的 空 处 理 器 上 的 能 力 。 因 此 ， 在 负载 平衡 和 硬件 故障 隔离 的 需求 之 间 就 要 有 一 个 权衡 。 在 
Cellular Disco 上 为 了 试图 避 开 这 个 问题 ， 将 每 个 处 理 器 同一 个 固定 的 虚拟 CPU 列表 相关 联 ， 并 
允许 虚拟 CPU 随 着 时 间 在 不 同 的 处 理 器 上 迁移 ， 甚 至 可 以 超越 单元 的 边界 。 为 每 个 处 理 器 创建 
的 VCPU 列表 简化 了 处 理 器 的 调度 并 且 消除 了 常规 系统 中 的 一 个 冲突 来 源 和 复杂 的 锁 操 作 。 移 


植 VCPU 的 能 力 尽管 在 时 间 间 隔 上 比 一般 系 统 要 粗略 ， 但 它 允 许 了 更 好 的 负载 平衡 能 力 。 对 于 
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故障 隔离 来 说 ，Cellular Disco 并 没有 采用 将 虚拟 机 的 界限 限制 在 理想 的 能 包含 它 的 最 少数 目的 单 
元 上 ， 而 是 允许 局 部 背离 这 样 严格 的 机 制 。 

考虑 一 个 虚拟 机 ， 其 所 有 处 理 器 都 包含 在 两 个 单元 中 ， 在 一 段 时 间 正 常 运行 后 突然 发 现 因 
为 一 个 处 理 器 过 载 使 得 自己 的 速度 慢 下 来 ， 比 如 是 因为 活动 的 VCPU 数目 过 多 造成 的 。Cellular 
Disco 发 现 了 这 个 状况 ， 首 先 尝试 将 虚拟 机 中 特定 的 VCPU 移 到 另 一 个 在 同一 单元 上 的 负载 较 小 
的 处 理 器 上 。 这 满足 了 系统 的 故障 隔离 要 求 。 如 果 同 一 单元 中 没有 可 用 的 小 负载 处 理 器 ， 而 其 他 
单元 上 有 ，Cellular Disco 就 允许 将 VCPU 移植 到 其 他 单元 中 。 这 样 ， 需 要 两 个 单元 资源 的 虚拟 机 
就 不 再 仅 受到 两 个 单元 发 生 的 故障 影响 ， 而 是 可 能 受到 三 个 单元 的 故障 影响 。 对 故障 保护 的 程 
度 必 须 做 出 一 些 折衷 使 得 系统 整体 上 获得 更 好 的 性 能 。 虚 拟 机 的 更 多 部 件 可 以 被 移植 到 这 个 新 
单元 上 ， 只 要 这 个 单元 负载 相对 较 小 。 最 后 ， 如 果 所 有 VCPU 都 从 一 个 单元 迁移 到 了 新 的 单元 
E, Cellular Disco 提供 了 一 种 机 制 可 以 完全 删除 旧 单 元 中 驻 留 的 所 有 数据 和 控制 信息 ， 这 样 就 使 
得 系统 只 受到 两 个 单元 而 不 是 三 个 单元 的 故障 影响 。 


9.4.4 存储 器 借用 


Cellular Disco 对 严格 故障 隔离 策略 变通 的 第 二 种 状况 是 存储 器 的 使 用 。 在 每 个 单元 上 运 
行 的 虚拟 机 监督 程序 管理 附属 于 该 单元 的 存储 器 。 这 对 故障 隔离 是 很 有 用 的 ， 但 是 可 能 会 导 
致 存储 器 资源 利用 不 平衡 。 这 样 ， 一 个 存储 密集 的 虚拟 机 的 某 个 单元 可 能 会 耗 尽 物理 存储 器 
并 将 页 面 频繁 的 换 入 换 出 磁盘 ， 而 此 时 系统 中 的 其 他 单元 仍 有 大 量 的 空闲 物理 存储 器 资源 可 
用 。Cellular Disco 允许 一 个 单元 临时 借用 其 他 单元 的 存储 器 ， 以 此 来 放松 严格 的 故障 隔离 
策略 。 

Cellular Disco 中 的 存储 器 借用 通过 如 下 几 个 步骤 实现 。 每 个 单元 包含 一 个 空闲 页 面 的 列表 。 
初始 的 时 候 ， 这 个 列表 只 包含 那些 物理 上 从 属于 该 单元 的 页 面 。 当 页 面 被 用 完 并 且 单 元 在 物理 
存储 器 上 的 运行 速度 开始 变 慢 ， 它 就 考虑 从 其 他 单元 中 借用 存储 器 页 面 。 被 借用 单元 的 选择 由 
如 下 几 个 方面 决定 。 

每 个 虚拟 机 为 这 个 目的 所 指派 的 单元 列表 。 虚 拟 机 的 用 户 可 以 决定 它们 希望 使 自己 不 被 
故障 影响 的 范围 。 虚 拟 机 指派 的 集合 越 小 ， 它 受 故 障 影响 的 可 能 性 就 越 低 ， 但 是 由 于 分 
页 造成 性 能 损失 的 概率 也 越 大 。 

积极 地 向 单元 中 的 虚拟 机 提供 存储 器 页 面 的 那些 单元 。 这 些 单元 被 保存 在 一 个 易 损 性 列 
表 中 。 通 过 保证 易 损 性 列表 中 单元 的 可 用 空闲 页 最 少 ， 借 用 策略 偏向 于 借用 那些 已 经 被 
借 过 的 单元 ， 从 而 防止 对 故障 敏感 性 的 增 大 。 

远程 单元 中 页 面 的 可 用 性 。 单 元 如 果 有 超出 一 定数 目的 存储 器 可 用 ， 它 就 可 以 成 为 借用 
的 候选 者 。 如 果 可 用 的 存储 器 数目 低 于 这 个 数目 ， 那么 单元 可 以 拒绝 对 它 的 存储 器 的 借 
用 请 求 。 

请 求 虚 拟 机 的 总 的 存储 器 需求 。 为 了 避免 不 需要 很 多 存储 器 的 虚拟 机 跨越 多 个 单元 ，Cel- 
lular Disco 倾向 于 将 自身 单元 中 可 用 的 本 地 存储 器 分 配给 这 些 虚拟 机 。 当 本 地 可 用 存储 器 
大 小 降低 到 一 个 阔 值 之 下 时 ， 才 开始 对 存储 器 请 求 考 虑 其 他 单元 的 空间 。 

图 9-15 中 用 一 个 流程 图 简要 说 明了 单元 中 发 生 页 面 失效 时 采取 的 操作 。 有 趣 的 是 Cellular 
Disco 只 在 存储 器 借用 失败 时 才 会 求助 于 分 页 的 手段 。 为 了 降低 这 类 请 求 的 数目 ， 每 次 借用 不 止 
一 个 页 面 。 一 旦 从 其 他 单元 中 借 到 一 个 页 面 ， 监 控 程 序 就 把 它 放 入 空闲 列 表 中 ， 并 标注 它 来 自 哪 
个 单元 。 对 这 个 存储 器 进行 常规 的 读 写 操作 是 不 会 产生 性 能 损失 的 一 一 借用 的 唯一 影响 是 使 用 
借用 页 的 虚拟 机 会 更 容易 受到 故障 的 影响 。 
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图 9-15 页 面 失效 时 Cellular Disco 的 操作 流程 图 。 系 统 尽量 避免 使 用 分 页 的 硬盘 。 对 于 需要 少量 存 
储 的 虚拟 机 ， 如 果 可 能 的 话 ， 尽 量 使 用 本 地 存储 满足 它 的 需求 。 需 要 借 页 时 ， 尽 可 能 选择 那 
些 在 易 损 性 列表 中 的 单元 


9.4.5 故障 恢复 


为 虚拟 机 提供 的 超出 单元 中 CPU 和 存储 器 的 硬 边 界 的 灵活 性 ， 使 得 从 硬件 故障 中 恢复 的 工 
作 更 加 复杂 。Cellular Disco 必须 保证 发 生 故 障 时 ， 所 有 受 影 响 的 单元 和 虚拟 机 都 被 维护 好 。Cel- 
lular Disco 在 故障 中 执行 的 操作 可 以 总 结 如 下 。 

1. 硬件 确定 故障 的 范围 ， 并 尝试 恢复 。 

2. 硬件 通过 一 个 中 断 把 这 个 恢复 操作 告知 系统 中 所 有 处 理 器 。Cellular Disco 处 理 中 断 ， 然 
后 初始 化 恢复 进程 。 


484 


284 BOF 








3. 单元 之 间 相 互通 信 以 协商 哪 一 部 分 硬件 节点 可 以 继续 运行 。 利 用 单元 之 间 共 享 存储 器 的 
能 力 来 加 速 这 一 进程 。 确 定 出 的 “ 活 ” 的 节点 集 被 用 来 把 通信 机 制 还 原 到 一 个 非 阻 塞 状态 ， 在 
该 状态 下 ， 所 有 活动 集合 外 部 的 节点 发 出 和 接收 的 消息 都 是 “ 非 阻 塞 的 ”。 

4. 工作 单元 上 的 每 个 VMM 确定 所 有 受 故 障 影响 的 虚拟 机 。 这 样 做 时 需要 参考 包含 每 个 虚 
拟 机 使 用 的 物理 资源 和 单元 信息 的 内 部 数据 结构 。 

为 了 保证 正确 的 清除 系统 中 所 有 受 影响 的 系统 虚拟 机 ， 并 且 所 有 对 这 些 虚 拟 机 的 访问 都 已 
从 每 个 单元 保存 的 数据 结构 中 删 去 ， 整 个 系统 都 需要 参与 恢复 过 程 。 这 上 比 物理 划分 系统 中 需要 
的 处 理 过 程 复 杂 得 多 一 一 可 以 看 作 是 为 正常 的 操作 状态 下 系统 利用 率 的 提高 所 付出 的 代价 。 

Cellular Disco 的 研究 表明 高 效 实现 相当 复杂 的 虚拟 化 和 故障 隔离 机 制 是 可 能 的 。 它 使 用 物理 
边界 作为 故障 隔离 的 强烈 暗示 而 不 是 硬性 限制 ， 这 种 基本 思路 提供 了 一 定 程度 的 灵活 性 ， 尤 其 
在 应 用 程序 愿意 为 了 更 好 的 性 能 而 选择 牺牲 一 些 故 障 隔 离 特性 的 情况 下 。 尽 管 该 研究 是 在 系统 
虚拟 机 的 背景 下 进行 的 ， 但 它 的 很 多 想法 最 终 将 在 基于 超级 管理 系统 的 逻辑 划分 系统 中 得 到 
应 用 。 


9.5 不 同 主机 与 客户 1SA 的 虚拟 化 


到 目前 为 止 所 描述 的 方案 都 是 考虑 虚拟 系统 ISA 和 主机 系统 ISA 相同 的 情况 。 如 果 这 两 者 
不 同 的 话 ， 就 增加 了 额外 的 复杂 度 。 

。 主机 系统 必须 动态 仿真 目标 ISA 指令 。 从 虚拟 ISA 到 本 地 ISA 的 翻译 操作 对 于 虚拟 机 及 

其 上 面 的 运行 程序 (包括 操作 系统 ) 必须 是 透明 的 。 为 达到 此 目的 ， 可 以 联合 采用 为 大 
部 分 ISA 特性 实现 的 进程 虚拟 机 (第 2 ~4 章 ) 中 和 为 某 些 系 统 ISA 特性 (如 页 错误 ) 
实现 的 协同 设计 串 拟 机 (第 7 章 ) 中 相关 的 仿真 技术 。 

© 目标 系统 的 存储 模型 必须 在 虚拟 机 系统 上 可 见 ， 特 别 是 存储 一 致 性 和 存储 顺序 规则 。 这 

需要 在 主机 系统 部 分 增加 额外 的 操作 。 主 机 可 以 使 用 硬件 、 固 件 或 可 信和 监控 层 (VMM 
或 超级 管理 程序 ) 中 的 仿真 软件 实现 该 功能 。 

如 前 所 述 ， 多 处 理 器 有 两 种 常用 的 配置 方法 。 处 理 器 之 间 可 以 配置 成 机 群 的 松 耦 合 形式 ， 
除了 IO 外 没有 其 他 的 共享 结构 ; 或 者 也 可 以 配置 成 共享 存储 的 方式 。 如 果 每 个 虚拟 处 理 器 
可 以 映射 到 一 个 实际 的 处 理 器 ,那么 在 一 个 本 地 机 群 上 实现 一 个 虚拟 机 群 是 很 直接 的 。 这 种 
情况 如 图 9-16 所 示 。 因 为 这 种 机 群 的 节点 之 间 的 存储 不 是 共享 的 ， 采 用 本 书 前 面 所 提 到 的 技 
术 就 可 以 对 每 个 处 理 器 实现 虚拟 。 虚 拟 节 点 之 间 的 通信 采用 消息 ， 并 将 其 翻译 成 主机 上 的 类 
似 消息 形式 。 

如 果 将 要 虚拟 的 系统 是 共享 存储 多 处 理 嚼 形式， 情况 就 变 得 复杂 一 些 了 。 由 于 处 理 器 之 
间 存 储 共享 ， 每 个 处 理 器 的 监控 器 (monitor) 必须 准确 处 理 共享 存储 器 访问 ， 就 像 在 本 地 机 
器 上 一 样 。 例 如 ， 如 果 客 户 虚拟 机 支持 一 致 性 的 共享 存储 ， 各 个 独立 处 理 器 上 运行 的 监控 器 
必须 保证 写 到 共享 存储 器 任何 位 置 的 数据 对 所 有 处 理 器 可 见 。 如 果 底 层 的 本 地 系统 也 是 共享 
存储 ， 那 么 系统 中 已 经 存在 的 支持 一 致 性 的 硬件 机 制 就 可 以 用 于 保证 虚拟 系统 的 一 致 性 。 这 
在 FLEX 公司 的 FLEX-ES 系统 中 得 到 了 使 用 。 当 在 一 个 基于 IA-32 的 SMP 机 器 上 运行 Linux 
系统 下 的 用 户 程 序 时 ， 该 机 制 提 供 了 一 个 虚拟 的 IBM System/390 SMP 系统 。 在 基本 的 IA-32 
SMP 上 增加 特殊 的 硬件 适配器 来 仿真 System/390 中 的 通信 和 IO 通道 功能 ， 如 图 9-17 所 示 。 
因为 底层 的 IA-32 平台 已 经 实现 了 存储 一 致 性 ， 可 以 很 容易 支持 虚拟 系统 的 存储 一 致 性 。 虽 然 
Intel IA-32 中 的 存储 顺序 规则 和 System/390 不 一 样 ， 但 是 VMM 层 可 以 在 不 降低 性 能 的 前 提 下 
解决 这 种 差异 。 
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虚拟 机 监督 程序 虚拟 机 监督 程序 虚拟 机 监督 程序 


Real Processor 1 Real Processor 2 Real Processor 3 | 





真实 硬件 
真实 的 互联 网 络 
图 9-16 一 个 真实 的 单 处 理 机 群 上 的 虚拟 单 处 理 器 机 群 
虚拟 机 1 虚拟 机 2 虚拟 机 3 
虚拟 SMP 
虚拟 机 监督 程序 虚拟 机 监督 程序 虚拟 机 监督 程序 
Real Reai Real 
Processor 1 Processor 2 Processor 3 

真实 SMP 








9-17 在 实际 的 共享 存储 系统 上 实现 虚拟 共享 存储 系统 。 当 虚拟 系统 和 真实 系统 的 VO 出 现 不 匹配 时 ， 
如 图 中 所 示 ， 有 必要 添加 有 效仿 真 IO 的 硬件 
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如 果 主 机 和 客户 机 的 存储 顺序 规则 不 一 样 ， 那 么 在 所 有 处 理 器 上 的 仿真 软件 就 必须 互相 通 
信 ， 并 且 保持 共享 存储 的 记录 。 对 该 问题 的 解决 方案 大 部 分 都 需要 使 用 数 条 指令 和 数 个 指令 周 
期 来 处 理 一 致 性 请 求 。 因 此 ， 如 果 系 统 中 有 一 定数 量 的 共享 ， 仿 真 的 性 能 就 会 有 相当 可 观 的 下 
降 。 下 一 节 将 介绍 一 些 处理 这 种 情况 的 方法 ， 并 讨论 法 在 的 性 能 损失 。 对 于 这 个 复杂 的 问题 ， 这 
里 只 是 给 出 了 一 些 粗略 的 解决 方法 。 


存储 模型 的 仿真 


如 附录 A 所 述 ， 大 部 分 处 理 器 的 ISA 都 包括 对 访问 共享 存储 位 置 的 特殊 约定 。 这 些 约定 与 
ISA 的 所 有 其 他 规范 一 起 在 程序 员 和 ISA 实现 之 间 提 供 了 一 种 协议 。 程 序 员 在 写 程 序 时 都 假设 处 
理 器 间 的 共享 变量 访问 遵守 某 些 规 则 ， 而 硬件 设计 师 (处 理 器 设计 者 或 者 系统 设计 者 ) 必须 确 
保 程 序 员 使 用 的 这 些 规 则 在 硬件 实现 中 都 得 以 保证 。 我 们 关注 存储 模型 的 两 个 主要 方面 ， 即 存 
储 一 致 性 (memory coherence) 和 存储 同一 性 (memory consistency) 模型 ， 这 两 个 方面 决定 了 不 
同 共享 存储 系统 的 执行 结果 。 多 处 理 器 系统 中 这 两 方面 显得 尤为 重要 ， 主 机 和 客户 机 存储 模型 
的 差异 可 能 导致 虚拟 化 时 产生 意外 的 结果 ， 除 非 通过 仿真 软件 的 特殊 操作 对 其 进行 处 理 。 

存储 一 致 性 仿真 

回想 一 下 前 面 提 到 的 多 处 理 器 系统 中 存储 一 致 性 的 实现 ， 一 个 处 理 器 对 一 个 存储 位 置 的 写 
操作 顺序 在 其 他 处 理 器 看 来 都 应 该 是 相同 的 。 附 录 A 7.3 描述 了 一 致 性 系统 和 非 一 致 性 系统 的 
不 同行 为 。 仿 真 软件 支持 客户 虚拟 机 的 一 致 性 模型 所 需要 采取 的 措施 取决 于 主机 和 客户 机 两 者 
的 一 致 性 模型 。 图 9-18 列 出 了 各 种 可 能 性 。 


同一 性 模型 可 用 


Eo 不 需要 特殊 的 
+H 


同一 性 指令 


同一 性 模型 不 可 用 插入 同步 





不 要 求 同 一 性 要 求 同 一 性 
客户 机 


图 9-18 仿真 一 致 性 模型 所 需 的 各 种 操作 。 所 有 情况 下 ， 主 机 都 必须 仿真 客户 机 的 同步 原 语 


1. 主机 和 客户 机 都 不 需要 存储 一 致 性 支持 : 在 这 种 情况 下 不 需要 采取 任何 措施 ， 因 为 程序 
在 编写 时 可 能 已 经 考虑 到 缺乏 一 致 性 支持 的 情况 。 系 统 的 同步 通过 显 式 的 同步 指令 来 实现 。 即 
使 客户 机 和 主机 的 同步 原 语 不 匹配 ， 通 常 也 可 以 通过 主机 的 同步 原 语 很 容易 地 仿真 客户 机 的 同 
步 原 语 。 

2. 客户 机 需要 一 致 性 而 主机 支持 一 致 性 : 这 种 情况 下 ,仿真 软件 保证 盛 拟 机 运行 时 存储 一 
致 性 选项 被 打开 。 

3. 客户 机 不 需要 一 致 性 而 主机 可 以 支持 : 这 种 情况 的 一 个 典型 例子 是 在 共享 存储 的 多 处 理 
器 系统 上 仿真 分 布 式 的 机 群 。 这 时 仿真 软件 不 需要 特殊 的 操作 。 处 理 器 的 一 致 性 硬件 保证 了 处 
理 器 间 的 存储 一 致 性 ， 实 现 了 比 客户 机 需要 的 更 强 的 一 致 性 模型 。 一 致 性 支持 可 能 会 导致 性 能 
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下 降 ， 如 果 主 机 还 支持 更 快速 的 非 一 致 性 模型 ， 那 么 可 以 像 前 面 第 一 种 情况 中 那样 使 用 这 种 模 
式 。 即 使 主机 运行 在 一 致 性 模式 下 ， 也 必须 用 主机 提供 的 同步 原 语 来 仿真 客户 机 的 同步 原 语 。 

4. 客户 机 需要 一 致 性 支持 而 主机 不 支持 : 这 种 情况 的 一 个 例子 是 在 分 布 式 存储 的 主机 上 虚 
拟 一 个 共享 存储 的 客户 机 。 这 里 唯一 的 方法 就 是 使 用 软件 保证 一 致 性 。 如 前 所 述 ， 即 使 机 器 不 支 
持 一 致 性 也 会 支持 同步 原 语 ， 所 以 软件 可 以 支持 显 式 的 同步 。 不 幸 的 是 ， 在 每 个 处 理 器 写 存储 后 
使 用 这 种 强制 性 的 同步 技术 会 使 速度 变 得 很 慢 ， 因 为 同步 操作 会 有 额外 开销 ， 特 别 是 在 大 的 系 
统 中 。 另 一 种 有 效 的 方法 是 使 用 目录 来 保存 共享 变量 的 处 理 器 集 ， 组 中 某 个 处 理 器 对 共享 内 容 
的 改变 将 触发 一 致 性 操作 。 随 着 目录 的 增 大 这 个 操作 的 开销 增加 。 目 录 的 大 小 可 以 通过 将 目录 
表 项 粒度 增加 为 一 页 来 减 小 。 因 为 页 表 结 构 可 以 用 于 存储 共享 信息 并 触发 一 致 性 操作 ， 所 以 这 
种 方式 也 是 很 方便 的 。 在 分 布 式 共 享 存储 计算 中 已 提出 了 一 些 类 似 的 技术 ( Hennessy, Heinrich 
和 Gupta 1999) ， 用 于 在 非 一 致 性 的 硬件 上 为 应 用 提供 一 致 性 。 

幸运 的 是 ， 当 前 大 部 分 的 ISA 都 支持 一 致 性 。 因 此 ， 一 致 性 仿真 并 不 会 对 虚拟 机 的 性 能 造成 
太 大 影响 。 

存储 同一 性 模型 

存储 同一 性 (consistency) 用 于 保证 一 个 处 理 器 对 不 同 存储 位 置 的 访问 顺序 在 其 他 处 理 器 看 
来 是 一 致 的 《参见 附录 A. 7.3 的 详细 描述 ) 。 这 与 存 同一 致 性 (coherence) 不 同 ， 因 为 后 者 用 于 
保证 同一 位 置 的 写 顺序 。 这 里 的 存储 同一 性 (consistency) 不 仅 处 理 不 同 的 位 置 ， 而 且 包括 所 有 
的 访问 ， 不 论 写 和 读 。 程 序 运行 在 虚拟 机 上 需要 保证 的 一 个 重要 原则 是 : 所 有 的 写 和 读 操 作 顺 序 
必须 保证 和 在 虚拟 机 的 本 地 实现 上 执行 时 的 顺序 相同 。 因 此 仿真 软件 就 必须 考虑 主机 和 客户 机 
上 存储 同一 性 模型 的 差异 ， 并 保证 存储 操作 顺序 与 客户 机 ISA 指定 的 一 致 。 

如 附录 A.7.3 所 述 ， 一致 性 模型 主要 需要 考虑 四 种 类 型 的 相关 : 读 读 相关 (RR), RSM 
关 (RW), SEHA (WR) 和 写 写 相 关 (WW)。 在 一 个 强 一 致 性 模型 中 ， 必 须 保证 没有 任何 
相关 出 现 。 如 果 将 这 种 要 求 放松 ,我 们 将 得 到 某 些 放松 的 一 致 性 模型 。 这 些 放松 的 模型 比 强 一 致 
性 模型 要 弱 。 

我 们 可 以 使 用 4 位 来 编码 一 致 性 模型 ， 每 位 表示 四 种 相关 中 某 一 种 相关 的 顺序 约束 。 如 
(1111) 表示 强 模型 ，(1101) 意味 着 WR 顺序 被 放松 ， 在 Intel IA-32 和 IBM System/390 中 使 用 
的 处 理 器 一 致 性 模型 就 是 这 样 。 最 弱 的 模型 是 (0000) ， 也 就 是 说 在 任意 的 读 写 操作 之 间 没 有 任 
何 顺序 约束 。 需 要 注意 ， 在 任何 情况 下 必须 保证 按照 程序 序 来 维护 一 个 处 理 器 对 同一 位 置 的 读 
写 顺序 (参见 附录 A.7.3)。 

为 了 比较 两 种 一 致 性 模型 ， 如 图 9-19， 我 们 列 出 了 一 个 网 格 (lattice) ， 其 中 每 个 节点 对 应 
一 个 一 致 性 模型 。 最 小 的 〈0000) 对 应 最 弱 的 模型 ， 最 大 的 (1111) 对 应 最 强 的 模型 。 如 果 要 
比较 两 个 一 致 性 模型 ， 我 们 将 看 两 者 的 上 确 界 (least upper bound, lub) 是 否 是 其 中 一 个 ， 如 果 
是 ,那么 这 个 上 确 界 就 比 另 一 个 要 强 。 比 如 (1101) 和 (1001)， 上 确 界 是 (1101)， 所 以 
(1101) 要 比 (1001) 要 强 。 这 个 模型 示 出 (1111) 比 任何 其 他 都 强 ， 因 为 它 是 最 大 的 元 素 。 

从 图 9-19 可 以 看 出 ，(0001) 和 (0110) 是 无 法 比较 的 。 在 某 些 方面 ， 一 个 模型 比 另 一 个 
强 ， 但 在 另 一 些 方面 却 正好 相反 。 有 两 个 模型 比 这 两 者 都 要 强 ， 即 (0111) 和 (1111)。 两 者 的 
上 确 界 是 (0111) 。 任 何 满足 (0111) 模型 的 顺序 也 将 与 (0001) 和 《0110) 这 一 对 所 模型 所 指 
定 的 顺序 一 致 。 

当 使 用 主机 上 不 同 的 一 致 性 模型 来 仿真 客户 机 的 一 致 性 模型 时 ， 我 们 可 以 把 可 能 性 分 为 以 
下 几 种 。 

1. 客户 机 的 存储 同一 性 模型 与 主机 的 同一 或 弱 于 主机 的 : 这 种 情况 下 ， 仿 真 软件 不 需要 采 
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取 任 何 专 门 措施 ， 只 需要 保证 翻译 或 解释 进程 不 去 除 或 重 排 处 理 器 对 共享 存储 位 置 的 访问 即 可 。 
这 最 后 的 限制 保证 了 虚拟 机 系统 访 存 顺 序 满 足 虚 拟 机 一 致 性 模型 的 顺序 约束 。 需 要 注意 ， 这 里 
的 限制 阻止 了 对 存储 器 访问 的 消除 一 一 例如 ， 该 位 置 的 内 容 已 在 通用 寄存 器 中 ， 但 对 存储 位 置 
的 访问 仍 不 能 被 安全 的 去 除 。 
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图 9-19 ”同一 性 模型 的 网 格 。 每 个 4 元 组 代表 四 种 相关 RR, RW, WRA WW, H 
中 的 “1” 表 明 不 允许 相应 的 相关 出 现 , “0” 表 示 该 相关 可 以 被 同一 性 模 
型 忽略 。4 元 组 (0000) 代表 弱 同 一 性 ，(1111〉 代 表 强 同一 性 ，(1101) 
代表 处 理 器 同一 性 


2. 客户 机 的 存储 同一 性 模型 比 主机 的 更 强 (EER): 对 于 这 种 情况 ， 客 户 机 必须 额外 避免 
的 相关 在 主机 也 必须 要 避免 。 我 们 将 在 下 一 部 分 详细 讨论 这 个 问题 。 

3. 客户 机 的 存储 同一 性 模型 在 某 些 方面 强 于 主机 ， 而 另 一 些 方面 却 弱 于 主机 : 这 种 情况 下 
我 们 首先 找到 两 种 同一 性 模型 的 上 确 界 。 由 于 上 确 界 同一 性 模型 比 两 者 都 强 ， 如 果 我 们 假设 客 
户 机 使 用 上 确 界 模型 ， 也 可 以 正确 仿真 客户 机 ， 尽 管 这 样 做 有 些 保 守 。 因 为 上 确 界 模型 比 主机 模 
型 也 要 强 ， 问 题 就 变 为 第 二 种 情况 了 。 考 虑 一 个 假想 的 例子 ， 如 果 客 户 机 的 模型 是 (0110) ， 即 
放松 对 RR 和 WR 相关 的 约束 ， 主 机 的 存储 模型 允许 所 有 的 相关 ， 只 对 WW 相关 (0001) 约束 ， 
那么 上 确 界 是 〈0111 ) 。 在 这 个 例子 中 ， 如 果 满 足 了 (0111) 的 同一 性 也 就 满足 了 客户 机 的 同一 
性 。 因 此 仿真 这 样 一 个 上 确 界 是 很 容易 的 。 

仿真 更 强 的 同一 性 客户 机 

如 果 客 户 机 的 同一 性 模型 比 主机 的 要 强 ， 也 就 是 说 主机 中 允许 发 生 的 一 些 相关 可 能 会 违反 
客户 ISA 的 同一 性 模型 。 让 我 们 首先 考虑 这 样 一 种 情况 : 客户 机 采用 处 理 器 同一 性 模型 而 主机 
采用 释放 同一 性 模型 。 因 为 这 两 种 模型 分 别 都 有 多 个 处 理 器 系统 采用 ， 所 以 是 很 有 意思 的 ， 如 在 
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PowerPC 多 处 理 器 上 运行 IA-32 的 多 处 理 器 虚拟 机 就 属于 这 种 范畴 。 在 这 种 情况 下 ， 在 处 理 器 同 
一 性 模型 中 禁止 的 RR、RW 和 WW 相关 在 虚拟 机 中 也 必须 被 禁止 。 

大 部 分 采用 放松 同一 性 模型 的 ISA 实现 都 握 供 了 特殊 的 看 储 路 障 指令 ， 程 序 员 使 用 该 指令 
在 某 些 点 指定 必须 保持 访 存 顺 序 ， 从 本 质 上 提高 了 同一 性 实现 的 粒度 。 为 了 说 明 这 种 情况 ， 我 们 
定义 一 个 membar 指令 ， 当 其 被 插 和 人 代码 中 时 ， 可 以 保证 路 障 两 边 的 任何 指令 对 之 间 都 没有 相 
关 。 显 然 ， 在 虚拟 机 中 仿真 存储 同一 性 模型 最 简单 的 方法 就 是 在 每 次 访 存 之 后 就 插入 一 条 mem- 
bar 指令 ， 如 图 9-20a 和 b 所 示 那 样 。 这 就 保证 了 在 主机 任意 处 理 器 的 每 对 访 存 操作 之 间 都 有 一 
个 membar 指令 用 于 避免 相关 。 当 然 在 每 次 访 存 之 前 插入 membar 指令 也 有 同样 的 效果 。 


客户 机 中 的 访问 主机 中 的 访问 消除 主机 中 的 
(处 理 器 同一 性 ) (释放 同一 性 ) membar 


Read A Read A Read A 

ves membar membar 
Write A ae we 
ve Write A Write A 
Read B membar we 
ws ve Read B 

Read C Read B membar 
wes membar we 

Write C se Read C 

Read C i 


Write B membar Write C 
membar 


Write C ves 
membar Write B 
ase membar 
Write B 

membar 





a) 原始 主机 代码 b ) 在 每 个 存储 访问 后 c) 利用 W-R 不 严格 性 减 
使 用 membar 指令 少 membar 指令 数目 


图 9-20 使 用 membar 指令 实现 客户 同一 性 需求 高 于 主机 的 情况 


不 幸 的 是 membar 指令 的 执行 延迟 很 长 ， 开 销 很 大 。membar 指令 的 效果 是 : 系统 中 所 有 处 
理 器 都 已 收 到 某 个 处 理 器 想 要 保证 的 一 个 访 存 顺序 的 请 求 ， 并 且 每 一 个 处 理 器 都 要 采取 适当 的 
动作 来 保证 兑现 该 请 求 。 由 于 load 和 store 指令 占据 了 指令 流 中 所 有 指令 的 三 分 之 一 ， 所 有 插入 
路 障 指令 将 会 导致 性 能 的 显著 下 降 。 因 此 监控 器 尽 可 能 限制 membar 指令 的 数量 是 很 重要 的 。 

上 述 提 到 的 简单 解决 方案 可 以 处 理 客户 机 上 的 任何 同一 性 模型 ， 包 括 强 模型 。 第 一 种 优化 
方法 是 在 存储 模型 放松 了 同一 性 约束 时 消除 一 些 路 障 。 如 图 9-20c 所 示 ， 在 处 理 器 同一 性 模型 
中 ， 如 果 写 指令 后 面 的 存储 访问 是 读 ， 那 么 写 指令 后 面 的 路 障 就 可 以 消除 。 第 二 种 优化 是 在 一 个 
访 存 指令 后 紧 接着 的 访 存 也 是 对 同一 个 位 置 时 ， 那 么 其 后 的 路 障 指令 可 以 消除 一 因为 程序 可 
以 在 没有 路 障 指令 情况 下 保证 正确 性 。 但 这 种 优化 必须 谨慎 地 实施 。 在 图 9-20c 的 例子 中 ，Read 
A 后 的 membar 指令 不 能 被 消除 ， 因 为 Write A 后 的 membar 指令 已 经 被 消除 了 ， 也 就 是 说 Read 
B 可 以 在 Write A 之 前 执行 ， 但 是 同一 性 不 允许 Read B 在 Read A 之 前 执行 ， 即 这 两 条 指令 之 间 
必须 有 一 个 membar 指令 。 注 意 到 在 没有 Write B 向 前 移动 的 危险 下 ，Read C 和 Write C 之 间 的 
membar 指令 也 消除 了 。 当 然 也 有 其 他 的 membar 插 人 方法 可 以 达到 同样 的 效果 。 

这 个 例子 表明 ， 如 果 客 户 机 的 同一 性 比 主 机 强 的 话 是 很 难 降 低 membar 指令 的 开销 的 。 但 是 
还 有 其 他 可 以 减少 这 种 仿真 开销 的 方法 。 即 使 在 一 个 多 处 理 器 系统 中 ， 处 理 器 也 会 经 常 执行 单 
线程 应 用 或 执行 多 线程 应 用 中 与 其 他 线程 没有 共享 存储 访问 的 一 部 分 。 因 为 我 们 主要 避免 的 是 
多 处 理 器 相关 ， 所 以 当 VMM 知道 一 个 线程 不 与 其 他 处 理 器 上 的 活动 线程 共享 存储 时 ， 就 不 需要 
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插入 路 障 指令 。 这 样 系统 中 的 翻译 程序 可 以 相互 自由 地 移动 存储 访问 ， 只 要 其 提供 了 在 必要 时 
可 以 恢复 虚拟 机 处 理 器 状态 的 方法 。 

如 果 一 个 程序 是 按 这 种 方式 来 编写 的 : 组 成 应 用 程序 的 每 个 线程 大 部 分 都 是 无 关 的 ， 并 且 
只 有 很 少 的 共享 存储 ， 如 作为 一 种 通信 的 手段 ， 那 么 解决 方式 就 会 更 有 趣 一 些 。 在 这 种 情况 下 ， 
可 以 更 加 有 效 地 限制 存储 路 障 的 插入 ， 因 为 只 需要 保证 那些 对 共享 存储 访问 的 顺序 即 可 ， 如 图 
9-21 所 示 。 


客户 机 中 的 访问 主机 中 membar 的 位 置 主机 中 membar 的 位 置 
(处 理 器 同一 性 ) (位 置 B 不 是 共享 的 ) (位 置 A 和 位 置 B 不 是 共享 的 ) 


Read A Read A Read A 


Write A Write A Write A 


Read B Read B Read B 
we membar vee 
Read C we Read C 
ves Read C wee 
Write C we Write C 
we Write C ane 
Write B membar Write B 
we membar 
Write B 
membar 


a) b) c) 


图 9-21 利用 对 访问 位 置 共享 特性 的 了 解 ， 减 少 存 储 器 路 摩 指令 的 数目 。 我 们 留 下 程序 段 中 最 
后 一 条 membar 指令 ， 因 为 在 此 我 们 并 不 知道 本 段 代 码 与 后 续 段 代码 的 共享 模式 


该 图 显示 ， 如 果 位 置 B 不 是 共享 的 ， 我 们 就 可 以 移 除 Read A fil Read B 之 间 的 路 障 ， 因 为 对 
位 置 B 的 任何 重 定 序 对 其 他 处 理 器 都 是 不 可 见 的 。 如 果 位 置 A 和 B 都 不 是 共享 的 ， 那么 对 其 他 
处 理 器 可 见 的 顺序 就 只 有 Read C 一 Write C 顺序 。 这 对 指令 间 不 需要 membar 因为 有 程序 序 的 保 
障 。 因 此 这 段 程 序 不 需要 任何 路 障 指令 。 

所 以 获得 高 性 能 的 最 主要 障碍 是 在 翻译 的 时 候 有 效 确定 一 个 存储 访问 是 否 是 对 共享 存储 的 。 
尽管 一 条 指令 的 访 存 历 史 可 以 提供 关于 一 个 访 存 位 置 是 否 共享 的 参考 ， 但 是 这 个 问题 还 是 很 困 
难 的 ， 因 为 要 想 判 断 存储 位 置 是 否 共享 将 需要 很 大 的 记录 数据 另外 当前 面 一 个 非 共享 位 置 变 
为 共享 时 必须 产生 一 个 异常 ， 从 而 导致 额外 的 开销 。 

男 一 个 问题 是 伪 共 享 false sharing) 。 如 仿真 软件 检测 到 一 个 存储 位 置 被 两 个 虚拟 机 处 理 器 
访问 ， 但 却 不 知道 基于 负载 平衡 的 目的 客户 操作 系统 已 经 将 一 个 处 理 器 上 的 线程 迁移 到 另 一 个 
上 ， 这 时 就 发 生 了 伪 共 享 。 伪 共享 可 能 会 导致 某 些 能 够 被 去 除 的 存储 路 障 未 被 消除 。 

除了 这 里 提 到 的 以 外 ， 实 际 的 ISA 经 常 允 许 放 松 或 强加 某 些 顺序 约束 。 例 如 ，System/390 
中 指令 读 和 数据 读 是 有 区 别 的 。ISA 不 需要 取 指 按照 其 最 终 执行 顺序 进行 。 它 也 允许 取 指 在 前 一 
条 指令 读 操 作 数 之 前 进行 。 这 种 顺序 的 放松 显然 是 为 了 提高 硬件 有 效 性 ， 并 且 有 助 于 减少 仿真 
开销 。 

在 这 一 节 中 我 们 了 解 到 在 主机 上 实现 具有 不 同 ISA 的 客户 虚拟 机 是 很 有 可 能 的 ， 尽 管 这 种 
虚拟 的 性 能 主要 依赖 于 两 种 ISA 存储 模型 的 匹配 性 。 特 别 地 ， 当 主机 存储 模型 更 弱 时 ， 例 如 较 弱 
的 存储 一 致 性 模型 (coherence) 或 存储 同一 性 模型 〈consistency) ， 潜 在 的 性 能 下 降 是 很 明显 的 ， 
除非 仿真 软件 在 同一 性 和 同步 方面 做 更 多 的 工作 。 如 第 8 章 提 到 的 ， 可 以 通过 增加 硬件 协助 软件 
来 完成 这 个 工作 。 一 个 极端 的 例子 是 处 理 器 提供 一 种 模式 支持 比 客户 机 更 强 的 存储 模型 。 有 一 
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些 处 理 器 ISA, ùn PowerPC ISA 可 以 提供 支持 一 致 性 (coherence) 的 模式 和 不 保证 一 致 性 的 模 
式 。 也 有 一 些 处 理 器 ISA， 如 Sun 的 SPARC ISA 支持 多 种 同一 性 (consistence) 模型 。 


9.6 总 结 


大 的 公司 和 一 些 其 他 机 构 ， 仍 然 在 尽力 克服 这 样 的 问题 一 一 减少 他 们 必须 维护 的 计算 机 系 
统 的 数目 和 类 型 ， 同 时 不 剥夺 重要 用 户 维护 和 运转 他 们 自己 系统 的 灵活 性 。 这 导致 了 一 批 要 求 
允许 合并 的 系统 ， 这 种 合并 本 质 上 是 通过 把 从 操作 系统 角度 所 观察 到 的 硬件 和 操作 系统 实际 运 
行 的 硬件 分 离 而 实现 的 。 大 型 服务 器 上 的 虚拟 平台 为 用 户 提供 了 类 似 于 在 他 们 自己 的 私有 物理 
系统 上 所 享有 的 特性 。 

本 章 分 析 了 大 型 多 处 理 器 服务 器 为 适应 向 不 同 的 用 户 提供 多 种 虚拟 多 处 理 器 平台 所 采用 的 
不 同方 法 。 我 们 已 经 看 到 了 不 同形 式 的 虚拟 化 在 提供 共享 资源 的 好 处 的 同时 如 何 解 决 虚拟 机 间 
的 隔离 彼此 。 一 些 解决 方法 ， 例 如 物理 划分 ， 在 虚拟 机 硬件 故障 隔离 方面 比较 占 优势 ， 而 其 他 方 
法 ,尤其 是 协同 设计 的 硬件 - 软件 方法 ， 在 虚拟 机 资源 分 配 灵活 性 上 表现 出 色 。 

采用 新 的 指令 集体 系 结构 的 最 大 障碍 是 存在 大 量 基 于 现 有 ISA 的 二 进 制 形式 的 应 用 程序 。 
当代 大 型 的 多 处 理 器 系统 通常 是 同 构 的 一 一 它们 把 那些 在 本 地 模式 下 执行 同样 ISA 的 处 理 器 组 
合 起 来 。 对 于 大 部 分 机 构 来 说 ， 将 系统 合并 到 使 用 一 种 ISA 的 大 的 多 处 理 器 系统 后 ， 仍 有 很 多 使 
用 其 他 ISA 的 关键 应 用 程序 需要 支持 ， 至 少 在 它们 被 移植 到 本 地 JISA 之 前 。 因 此 ， 这 些 其 他 平台 
的 虚拟 化 仍然 是 一 个 很 重要 的 题目 ， 至 少 在 更 广泛 采用 不 依赖 于 平台 的 语言 , 如 Java， 和 不 依赖 
于 平台 的 操作 系统 之 前 ， 如 Linux。 我 们 已 经 看 到 了 在 一 种 SA 上 有 效仿 真 使 用 另 一 种 ISA 的 程 
序 ， 在 单 处 理 器 平台 上 这 已 经 很 困难 了 ， 对 多 处 理 器 系统 来 说 就 更 加 令 人 泪 夷 ， 尤 其 在 当 存储 器 
模型 不 兼容 的 情况 下 。 新 的 技术 将 会 产生 以 改善 仿真 不 同 ISA 的 性 能 ， 特 别 是 利用 线程 级 的 并 
行 性 。 

同一 ISA 的 虚拟 化 ， 从 另 一 方面 来 说 ， 似 乎 已 经 被 普遍 接受 。 本 章 前 言 中 所 列 出 的 虚拟 化 的 
优势 对 企业 服务 器 来 说 是 很 有 吸引 力 的 ， 但 是 很 可 能 小 的 服务 器 ， 例 如 那些 因特网 服务 提供 者 ， 
也 将 开始 采用 虚拟 化 ， 特 别 是 在 用 户 间 保证 隐私 权 ，, 保护 用 户 不 受 由 其 他 用 户 使 用 的 平台 恶意 
或 者 意外 的 影响 。 事 实 上 ， 随 着 更 多 应 用 的 执行 使 用 网 络 资源 ， 即 使 是 在 一 个 单 用 户 环境 中 也 需 
要 保护 应 用 程序 免 受 其 他 程序 的 影响 ， 这 样 的 需求 可 能 最 终 将 导致 在 个 人 设备 〈 例 如 便携 式 电 
脑 甚至 移动 电话 ) 上 采用 虚拟 化 技术 。 





第 10 章 新 兴 应 用 


随 着 计算 机 应 用 及 其 对 计算 机 系统 管理 需求 的 持续 发 展 ， 虚 拟 机 和 虚拟 化 技术 的 作用 也 随 
之 发 展 。 虚 拟 化 在 为 计算 机 系统 带 来 新 的 能 力 的 同时 ， 避 免 使 现 有 复杂 的 软 硬 件 变 得 更 加 复杂 。 
这 些 新 的 能 力 可 以 支持 新 的 计算 方法 ， 并 可 以 在 许多 越 来 越 依赖 计算 机 的 重要 领域 提供 关键 的 
功能 。 

回想 一 下 最 初 在 主机 上 开发 虚拟 机 系统 时 所 提出 的 那些 见解 ， 现 今 的 真实 机 器 上 运行 的 操 
作 系统 和 应 用 也 应 该 能 够 运行 在 虚拟 机 上 。 这 样 做 的 一 部 分 动机 是 允许 在 硬件 和 操作 系统 之 间 
的 层次 上 开发 一 些 新 的 服务 而 无 需 修改 操作 系统 和 应 用 。 新 服务 的 例子 有 : 帮助 用 户 隔离 恶意 


”攻击 的 人 侵 检测 系统 ， 使 移动 用 户 不 需要 携带 他 们 的 机 器 就 可 以 随处 访问 整个 计算 环境 的 环境 


镜像 服务 ， 以 及 通过 在 多 个 虚拟 机 上 元 余 执 行 同一 个 程序 增强 可 靠 性 。 使 用 虚拟 机 技术 在 不 同 
指令 集 上 仿真 一 个 指令 集 有 一 些 成 果 。 虚 拟 机 被 用 来 对 整个 环境 和 应 用 打包 ， 以 避免 在 机 器 上 
安装 操作 系统 和 应 用 这 些 耗 时 的 工作 。 虚 拟 机 还 被 用 来 隔离 一 个 系统 中 的 数据 ， 从 而 允许 同一 


”个 物理 机 器 处 理 私密 和 公共 的 数据 而 不 危及 安全 性 。 


为 了 说 明 虚 拟 机 技术 对 未 来 系统 和 模式 的 重要 性 ， 这 一 章 我 们 介绍 三 个 新 兴 的 虚拟 机 应 用 ， 
它们 使 未 来 计算 有 根本 的 不 同 。 第 一 个 是 虚拟 机 应 用 于 计算 机 安全 ， 这 个 领域 越 来 越 被 重视 。 现 
代 计 算 机 系统 是 一 些 现 有 的 最 复杂 的 结构 ， 随 着 硬件 和 软件 的 商品 化 和 网 络 的 普及 ， 人 侵 者 利 
用 复杂 且 不 断 发 展 的 系统 中 不 可 避免 的 漏洞 和 缺陷 在 很 大 范围 制造 破坏 越 来 越 容 易 。 最 终 ， 系 
统 将 走向 成 熟 ， 对 这 些 攻击 的 免疫 力也 会 越 来 越 强 ,针对 阻止 这 些 攻击 的 完整 机 制 也 很 有 希望 
开发 出 来 。 本 章 介 绍 的 虚拟 机 入 侵 检测 机 制 就 是 一 种 开发 攻击 免疫 系统 的 有 用 工具 。 

我 们 考虑 的 第 二 个 应 用 是 对 完整 计算 环境 的 移植 ， 这 也 是 由 软 硬 件 的 商品 化 和 计算 系统 的 
网 络 化 激发 的 。 依 赖 于 拥有 完整 环境 的 用 户 数 量 在 增加 ,计算 环境 包括 所 有 数据 、 程 序 和 系统 私 
人 化 ， 而 且 希 望 在 多 种 场合 (如 ， 在 办 公 室 、 家 里 、 旅 途中 ) 都 能 容易 地 使 用 。 为 了 达到 这 点 ， 
这 些 用 户 不 得 不 利用 便携 机 随身 带 着 他 们 的 计算 环境 。 不 管 是 为 了 便利 性 还 是 安全 性 ， 都 希望 
允许 用 户 登录 到 任何 计算 机 并 且 立 即 在 这 人 台 机 器 上 复制 用 户 的 计算 环境 。 虚 拟 机 技术 ， 提 供 了 
获取 计算 机 系统 全 部 状态 的 能 力 ， 使 整个 计算 环境 的 移植 更 便利 。 从 而 ， 用 户 将 习惯 于 从 大 的 计 
算 或 数据 中 心 远 程 获得 他 们 的 数据 和 计算 环境 。 这 种 模式 可 以 避免 在 用 户 旅行 到 达 的 每 一 处 都 
带 着 整个 计算 机 ， 但 不 能 避免 把 用 户 环境 从 一 个 系统 移植 到 另 一 个 的 需求 。 负 载 平 衡 、 系 统 利用 
率 及 系统 延迟 等 问题 要 求 能 获取 用 户 环境 的 状态 并 移植 它 。 

计算 作为 服务 或 公用 事业 的 观点 开始 被 接受 ， 学 术 界 曾 在 一 段 时 间 积 极 促进 这 种 模式 ， 这 
种 观点 在 商业 上 也 很 有用。 计算 网 格 的 概念 给 出 了 一 种 众多 用 户 共 享 计 算 资 源 的 无 颖 接合 途径 。 
网 格 虚拟 化 计算 资源 在 一 定 程度 上 类 似 于 系统 虚拟 机 中 的 资源 虚拟 化 ， 尽 管 技术 上 它 是 通过 重 
新 定义 构造 应 用 的 方法 达到 虚拟 化 。 在 某 种 意义 上 ， 网 格 概念 代表 了 虚拟 机 发 展 的 最 终 形态 。 如 
Java 平台 的 定义 主要 包括 虚拟 化 ， 可 移植 性 和 安全 性 ， 网 格 主要 也 包括 这 些 系统 和 应 用 级 类 似 的 
特征 。 虚 拟 化 不 是 网 格 上 可 有 可 无 的 东西 一 一 运行 在 网 格 上 的 应 用 必须 接受 的 观点 是 不 了 解 它 
们 不 清楚 其 所 使 用 的 真实 资源 的 物理 特性 。 每 个 机 器 的 硬件 和 操作 系统 提供 这 些 与 实现 无 关 的 
观点 。 尽 管 现 在 通过 扩展 现 有 系统 来 实现 ， 但 是 正如 前 面 提 到 的 安全 性 的 应 用 实例 所 示 ， 对 网 格 
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上 操作 的 支持 需要 硬件 和 基本 系统 软件 的 集成 设计 。 这 个 集成 设计 可 能 包括 许多 本 书 中 描述 的 
虚拟 机 概念 。 

对 新 兴 虚 拟 机 应 用 的 综述 从 10. 1 节 讨 论 虚 拟 机 在 维护 越 来 越 易 受 攻击 的 计算 机 系统 的 安全 
性 方面 发 挥 的 作用 开始 。10. 2 节 我 们 检验 了 利用 虚拟 机 把 一 个 完整 的 环境 从 一 个 计算 机 系统 移 
植 到 另 一 个 的 思想 。 最 后 ， 我 们 在 10. 3 节 讨 论 一 个 新 兴 的 网 格 计算 模式 ， 它 类 似 于 其 他 的 虚拟 
化 技术 ， 在 构建 虚拟 机 中 到 处 可 见 。 


10.1 安全 


商业 系统 尤其 是 大 型 机 的 用 户 很 久 以 来 一 直 很 关心 系统 安全 问题 。 大 型 机 构 如 银行 、 航 空 、 
联邦 代理 等 使 用 的 机 器 处 理 的 是 敏感 信息 ， 这 就 要 求 其 有 能 够 抵抗 攻击 的 安全 性 。 即 使 是 最 近 ， 
对 使 用 通用 商用 计算 机 的 用 户 来 说 安全 性 也 是 需要 考虑 的 。 现 在 ， 随 着 攻击 越 来 越 多 以 及 攻击 
者 越 来 越 聪 明 ， 计 算 机 安全 成 为 各 类 计算 的 首要 问题 ， 包 括 低 端的 桌面 机 、 便 携 机 器 ， 甚 至 是 个 
人 数字 助手 (PDAs) 和 便携 式 电 话 。 如 果 几 个 月 听 不 到 (REMEG, RIZE) 关于 又 有 
一 种 蠕虫 或 病毒 侵袭 了 世界 上 数 千 合 〈 如 果 不 是 上 百 万 台 ) 计算 机 就 是 很 稀奇 的 事 了 。 

危及 计算 机 系统 安全 的 最 通常 的 方式 是 攻击 者 简单 地 访问 计算 机 系统 的 特权 区 域 ， 如 Unix 
环境 下 的 超级 用 户 和 Windows 系统 的 管理 员 。 有 趣 地 是 ， 很 多 攻击 是 由 那些 付出 很 少 努力 就 可 
以 得 到 这 些 特 权 区 域 访问 权 的 人 制造 的 一 一 例如 ， 利 用 保护 不 充分 的 密码 ， 或 更 常用 的 ， 通 过 使 
用 密码 重 试 来 访问 系统 。 一 旦 攻击 者 获得 系统 的 访问 权限 ， 他 或 她 就 可 以 篡改 操作 系统 以 获得 
机 密 信息 其 至 破坏 数据 。 通 常 ， 入 侵 者 第 一 次 进入 系统 后 简单 地 修改 系统 为 以 后 留 后 门 。 

另 一 个 常用 的 攻击 类 型 是 利用 系统 软件 固有 的 弱点 。 现 代 系 统 软件 特别 是 操作 系统 的 规模 
和 复杂 性 使 它 难以 确保 在 交 给 客户 之 前 每 个 安全 漏洞 都 消除 了 。 用 如 C 等 语言 编写 的 不 安全 的 
程序 常常 出 现 bugs (或 由 编程 水 平 不 足 而 产生 可 能 的 安全 隐患 )， 就 会 被 利用 来 获得 系统 访问 权 
限 而 控制 系统 。 一 个 常见 的 安全 隐患 是 不 检测 对 C 数组 的 访问 。 当 这 样 的 数组 被 用 作用 户 数据 
缓冲 区 时 ， 用 户 可 以 在 这 个 缓冲 区 中 填充 超过 数组 大 小 的 数据 以 引起 内 存 中 相 邻 区 域 被 溢出 的 
数据 覆盖 。 如 果 这 些 被 覆盖 的 区 域 中 有 一 个 恰好 是 程序 跳 转 地 址 ， 攻 击 者 就 可 以 聪明 地 计算 出 
这 一 地 址 ， 这 样 可 以 使 这 个 地 址 指向 一 个 程序 ， 如 一 个 shell 程序 ， 攻 击 者 通过 这 个 程序 来 控制 
系统 ， 如 图 10-1 所 示 。 一 个 无 知 的 用 户 通常 不 可 能 无 意 地 使 用 这 种 方式 危害 系统 ， 因 为 任意 用 
户 数据 造成 跳 转 到 一 个 敏感 位 置 的 概率 很 低 。 因 此 ， 这 种 安全 隐患 常常 是 被 恶意 的 使 用 并 对 系 
统 造成 很 严重 的 破坏 。 


10.1.1 入侵 检测 系统 


实际 上 ， 上 一 节 中 描述 的 因 bug 或 编程 水 平 不 足 而 (poor programming) 引发 的 安全 漏洞 ， 
最 终 都 会 被 修复 。 不 过 ， 当 系统 中 引入 新 的 代码 后 又 会 出 现 新 的 漏洞 。 显 然 确保 系统 安全 的 最 有 
效 的 方法 是 把 系统 与 所 有 潜在 的 攻击 者 隔离 (就 像 把 它 和 其 他 的 系统 隔离 开 一 样 )。 对 大 多 数 系 
统 这 并 不 是 一 种 实用 的 方法 一 一 用 户 通 过 本 地 局 域 网 或 Internet 与 其 他 系统 通信 ， 这 使 它们 易 受 
到 前 面 提 到 的 各 类 恶意 攻击 。 使 用 如 Java 和 MSIL 这 种 内 置 有 类 型 和 边界 检查 的 面向 对 象 编程 ， 
将 提供 高 层 的 安全 性 ， 但 只 对 运行 在 HLL 虚拟 机 框架 上 的 程序 有 效 。 相 当 多 的 系统 代码 和 许多 
本 地 库 可 能 仍然 在 安全 框架 以 外 存留 相当 一 段 时 间 。 

为 当前 系统 提供 安全 保障 的 一 个 普通 方法 是 使 用 入 侵 检测 系统 (IDS)。 就 如 它 的 名 字 所 暗 
示 的 ， 这 些 系统 试图 连续 或 周期 性 地 检查 计算 机 以 阻止 潜在 的 攻击 。 这 些 系 统 依赖 于 潜在 攻击 
发 生 的 一 般 知识 。 一 旦 知道 一 个 攻击 的 特点 ，IDS 就 可 以 检查 计算 机 中 的 活动 ， 确 定 是 否 有 具有 
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这 些 特点 的 攻击 发 生 ， 然 后 在 这 些 恶意 进程 造成 大 的 破坏 之 前 关闭 它们 。 由 于 大 多 数 攻 击 是 从 
网 络 进入 被 连接 的 计算 机 ， 所 以 可 以 在 网 络 中 远离 这 台 计 算 机 的 地 方 放置 人 侵 系统 一 一 这 种 情 
况 称 为 基于 网 络 的 入 侵 检 测 系统 ， 或 简称 为 NIDS。 田 一 方面 ， 如 果 人 侵 系统 放置 在 计算 机 内 部 ， 
例如 放 在 操作 系统 中 ， 这 种 情况 称 为 基于 主机 的 入 侵 检测 系统 ， 简 称 为 HIDS。 

用 户 模式 超级 用 户 模式 用 户 模式 超级 用 户 模式 


用 户 使 用 正常 输入 
调用 系统 程序 






系统 程序 执行 函数 
然后 返回 给 用 户 













用 户 执行 后 续 任务 





栈 中 的 返回 地 址 被 溢出 修 
改 ， 脆弱 的 系统 程序 执行 
沙 数 ， 然 后 返回 到 用 户 指 
定 的 地 址 ， 如 shell 程序 的 





a) 












用 户 模式 超级 用 户 模式 
用 户 通过 运行 在 超级 
用 户 使 用 造成 缓冲 
BCS 1H SAR BY AT 用 户 模式 下 的 shell @ 






输入 调用 系统 程序 | 序 完全 控制 系统 | 











栈 中 的 返回 地 址 被 溢出 
攻击 ,脆弱 的 系统 程序 
RAT RR, FRB) 
个 非法 地 址 






b) c) 


图 10-1 ”利用 程序 栈 中 的 缓冲 区 溢出 。 在 通常 的 事件 过 程 a) 用 户 参数 装配 在 缓冲 区 中 ， 栈 中 的 返回 
地 址 是 用 户 程序 的 一 个 位 置 ， 如 果 用 户 玖 忽 导 致 缓冲 区 游 出 b)， 返回 地 址 可 能 被 修改 ( 覆 
盖 ) 但 指向 一 个 不 合法 的 指令 地 址 。 在 这 种 情况 下 ， 返 回 导致 一 个 异常 。 恶 意 程序 c) 将 一 
个 参数 复制 到 缓冲 区 中 ， 用 它 覆 盖 返 回 地 址 ， 返 回 到 一 个 位 置 使 人 侵 者 可 以 运行 另 一 个 有 效 
的 程序 ， 这 个 程序 可 以 是 一 个 Shell 程序 ， 运 行 在 超级 用 户 模 式 下 ， 人 允许 用 户 支配 这 个 系统 


基于 网 络 的 人 侵 检 测 系统 (E 10-2) 检查 网 络 中 的 数据 包 ， 查 找 特 定 的 模式 或 信号 ， 确 定 
是 否 有 可 疑 活动 程序 。 通 信 监 听 可 以 在 主机 中 也 可 以 在 远离 主机 的 位 置 ， 例 如 在 防火 墙 或 路 由 
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器 中 。 只 要 检测 到 可 峰 活 动 ，NIDS 就 阻塞 这 个 活动 或 改 送 到 隔离 区 中 。 因 为 攻击 可 能 被 伪装 ， 
不 能 保证 恶意 攻击 总 是 能 匹配 NIDS 数据 库 中 的 某 个 信号 。 也 有 可 能 无 害 的 通信 被 认为 是 可 疑 
的 ， 因 为 它 可 能 有 与 数据 库 中 相似 的 信号 (也 就 是 假 ) 。 尽 管 如 此 ， 在 很 多 情况 下 NIDS 被 证 明 
是 相当 有 效 的 ， 这 一 点 部 分 归 因 于 它 与 所 保护 的 系统 相 分 离 。 





图 10-2 典型 商业 网 络 和 人 侵 检 测 系统 《NIDS)。 传 感 器 (sensor) 监视 网 络 中 的 舱 
骗 性 的 活动 。 控 制 台 (console) 控制 传感器 运行 ， 记 录 传 感 器 观察 到 的 
活动 ， 当 检测 到 恶意 活动 时 在 系统 的 隔离 部 分 插入 控制 点 


基于 主机 的 人 侵 检测 系统 直接 检查 主机 中 的 活动 ， 并 利用 主机 操作 系统 的 细节 知识 。HIDS 603 
将 检查 如 入 侵 者 反复 试图 登录 ， 或 试图 访问 通常 不 允许 用 户 访问 的 文件 。 典 型 的 ，HIDS 与 操作 04 
系统 结合 ， 对 系统 中 发 生 的 活动 有 很 高 的 可 见 性 。HIDS 即使 作为 主机 中 的 一 个 应 用 运行 也 可 以 
通过 与 操作 系统 交互 而 享有 很 高 的 可 见 性 。 实 际 上 ， 分 离 操作 系统 和 HDS 可 以 更 好 地 保护 系统 
免 受 针对 HDS 本 身 的 攻击 的 入 侵 。 

显然 这 两 种 系统 在 一 些 方面 并 不 同 ， 有 它们 各 自 的 优 缺 点 。 与 HIDS 相 比 ，NIDS 具有 较 低 
的 可 见 性 ， 它 的 决定 几乎 全 部 取决 于 对 网 络 通信 的 检查 ,因此 攻击 者 有 更 多 的 灵活 性 可 以 绕 开 
检测 系统 ， 尤 其 是 利用 伪装 。 另 一 方面 ，NIDS 可 以 连续 监视 活动 程序 甚至 在 主机 被 成 功 攻击 之 
后 一 一 这 对 弄 清 这 种 攻击 的 特性 和 以 后 的 预防 有 极其 重要 的 价值 。 并 入 了 HDS 的 系统 在 受到 攻 
击 后 将 失去 判断 力 ， 如 果 给 人 侵 者 足够 的 时 间 来 配置 附加 的 资源 控制 系统 ， 它 甚至 可 能 给 出 误 
导 信 息 。 


10.1.2 攻击 的 监视 和 恢复 


攻击 者 不 断 的 寻找 新 的 方法 来 绕 开 系统 的 防护 。 因 此 与 拥有 好 的 人 侵 检测 系统 同等 重要 的 
是 使 用 大 量 方法 从 攻击 中 恢复 及 预防 以 后 的 相同 攻击 。 这 方面 的 一 个 重要 成 就 是 日 志 。 日 志 
存 系统 中 的 重大 活动 ， 例 如 登录 尝试 以 及 对 系统 中 重要 文件 的 访问 和 修改 。 这 种 对 有 限 信息 的 
记录 可 以 帮助 分 析 入 侵 者 使 用 的 方法 并 为 以 后 的 攻击 开发 防护 方法 。 可 是 ,为 了 能 从 攻击 中 完 
全 恢复 必须 存储 更 多 的 信息 ， 例 如 在 攻击 发 生前 某 点 的 系统 状态 的 检查 点 信息 。 

为 了 对 系统 事件 进行 日 志 提出 了 许多 技术 和 方针 。 大 多 数 技术 假设 操作 系统 是 机 能 正确 的 ， 
因为 它们 使 用 操作 系统 的 服务 来 记录 发 生 的 各 种 事件 ， 实 际 上 许多 甚至 是 在 被 监视 的 系统 中 保 
存活 动 日 志 。 这 样 的 系统 受到 双重 威胁 ， 当 攻击 发 生 时 不 仅 使 系统 处 于 攻击 者 的 控制 下 ， 系 统 日 505 
志 也 可 能 以 对 用 户 透 明 的 方式 被 更 改 ， 或 以 阻止 在 新 建 防护 中 再 现 攻 击 而 被 修改 。 

系统 在 被 攻击 之 后 的 重建 也 存在 一 些 困难 。 第 一 个 需求 是 确定 攻击 发 生前 的 一 个 已 知 的 好 
的 系统 状态 ， 这 意味 着 系统 以 前 某 时 刻 的 检查 点 信息 必须 可 用 。 如 果 系 统 在 这 个 检查 点 之 后 的 
输入 信息 都 全 部 可 用 ， 从 这 个 状态 系统 所 执行 的 活动 就 可 以 在 以 后 的 某 个 时 刻 被 重 放 。 如 果 知 
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道 这 些 外 部 输入 的 时 间 ， 例 如 键盘 活动 或 网 络 活动 ， 系 统 就 可 以 一 步 步 回 退 到 可 疑 活动 发 生 之 
前 的 时 刻 。 遗 憾 的 是 , -不 是 所 有 外 部 输入 都 引起 对 系统 的 确定 性 改变 。 异 步 中 断 是 由 系统 内 核 外 
的 事件 引发 的 ， 例 如 从 LO 设备 来 的 事件 ， 它 可 能 是 自发 的 ， 当 系统 重新 执行 时 可 能 不 会 在 原来 
的 点 发 生 。 这 些 事 件 必须 很 详细 的 记录 ， 从 而 使 系统 重新 执行 时 可 以 准确 地 模拟 。 

本 小 节 ， 在 简要 介绍 完 系 统 被 攻击 的 典型 方法 和 入侵 检测 系统 使 用 的 检测 攻击 方法 之 后 ， 
我 们 还 略 述 了 为 了 能 从 攻击 中 恢复 所 需 的 系统 日 志 。 在 下 一 节 我 们 将 检测 虚拟 机 技术 如 何 推动 
这 些 功 能 。 


10. 1.3 虚拟 机 技术 的 作用 


在 现 有 的 系统 中 ， 大 多 数 用 来 维持 安全 性 的 技术 通常 作为 独立 的 程序 来 实现 。 有 理由 相信 
如 果 安 全 性 特征 与 系统 其 他 部 分 紧密 结合 将 带 来 显著 的 优势 ， 但 是 在 实现 时 把 用 来 加 强 安全 性 
和 监视 系统 活动 的 技术 与 系统 被 攻击 部 分 隔离 开 也 很 重要 的 ， 这 就 是 虚拟 机 技术 产生 的 根源 。 
我 们 将 通过 以 下 三 个 例子 来 了 解 虚拟 机 技术 在 系统 安全 是 性 上 的 应 用 。 

虚拟 机 作为 一 个 沙 盒 

在 第 8 章 和 第 9 章 我 们 看 到 虚拟 机 如 何 允许 将 完整 系统 环境 与 其 他 的 相隔 离 。 容 错 是 虚拟 机 
的 一 个 重要 特性 一 一 一 个 虚拟 机 上 的 软件 错误 不 会 传播 到 其 他 虚拟 机 。 典 型 的 虚拟 机 系统 具有 
隔离 失效 的 虚拟 机 的 能 力 ， 关 闭 它 并 重启 一 个 新 的 虚拟 机 ， 而 不 需要 通知 系统 中 的 其 他 虚拟 机 。 
这 种 隔 高 虚拟 机 的 能 力 使 它 成 为 在 攻击 发 生 后 检测 攻击 后 果 的 有 力 工具 (图 10-3)。 正 如 前 面 提 
到 的 ， 这 种 攻击 后 的 分 析 对 设计 针对 未 来 攻击 的 防护 和 攻击 造成 危害 前 的 检测 都 很 有 利 。 


虚拟 机 产品 
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图 10-3 一 个 系统 虚拟 机 可 被 看 作 一 个 沙 盒 


在 描述 虚拟 机 优点 的 论文 中 ，Chen 和 Noble 提出 虚拟 机 的 全 部 状态 可 以 被 保存 、 复 制 、 加 
密 、 移 动 、 恢 复 一 一 这 些 功能 在 物理 机 器 上 不 容易 达到 (P.M. Chen 和 Noble 2001) 。 他 们 进 一 
步 提出 理解 攻击 影响 的 最 好 的 方法 是 重 现 攻击 然后 在 攻击 作用 时 监视 系统 收集 有 关 攻 击 行 为 的 
信息 。 在 真实 系统 中 这 样 做 冒 很 大 风险 ， 可 以 在 虚拟 机 上 复制 被 攻击 的 原始 机 器 ， 然 后 在 虚拟 机 
上 很 安全 地 操作 ， 检 查 攻击 的 后 果 ， 达 到 目的 后 丢弃 这 个 机 器 。( 虚拟 机 复制 可 以 通过 10. 2 节 描 
述 的 系统 封装 和 重启 技术 来 实现 。) 

在 虚拟 机 上 复制 一 个 系统 也 激发 了 其 他 有 趣 的 可 能 性 。 一 个 潜在 的 可 疑 网 络 包 或 其 他 可 疑 
的 输入 可 以 在 被 送 往 真实 系统 之 前 先 送 到 一 个 复制 中 ， 以 检查 它 是 否 有 不 良 后 果 。 类 似 地 ， 在 开 
发 人 侵 检测 系统 时 ， 在 虚拟 机 上 的 复制 系统 中 测试 系统 对 系统 的 后 果 要 比 直接 在 要 保护 的 系统 
中 测试 安全 得 多 。 

监视 低层 活动 的 虚拟 机 

系统 虚拟 机 在 系统 与 硬件 之 间 组 成 了 一 个 屏障 ， 并 在 同一 硬件 上 的 不 同系 统 之 间 建 立 屏障 。 
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可 以 扩展 虚拟 机 的 这 个 人 性质 ， 在 受到 人 侵 者 潜在 攻击 的 系统 与 DS 之 间 建 立 屏 障 ， 监 视 系统 中 
低层 活动 。 有 两 种 方法 可 以 在 虚拟 机 系统 中 配置 IDS 来 达到 这 点 。 

1. IDS 作为 它 自己 虚拟 机 上 或 主机 虚拟 机 中 主机 操作 系统 上 的 一 个 独立 进程 ， 通 过 专门 的 
接口 访问 VMM 中 的 函数 。 这 些 接口 必须 支持 : (a) AIDS 向 VMM 发 送 命令 的 方法 ， 例 如 局 动 
特定 监视 函数 ; (b) 有 效 地 访问 被 保护 系统 物理 内 存 的 机 制 ，(c) VMM 将 虚拟 机 上 与 活动 程 
序 有 关 的 信息 送 回 IDS 的 方法 。 

2. IDS 可 以 与 VMM 结合 在 一 起 。 这 给 IDS 赋予 虚拟 机 监视 者 的 特权 和 地 位 ， 允 许 它 访问 被 
保护 的 系统 的 所 有 硬件 活动 。VMM 是 系统 中 一 个 很 关键 的 重要 软件 ， 因 此 需要 被 彻底 地 调试 ， 
坚决 地 抵抗 攻击 或 故障 。 在 IDS 和 VMM 相 集 成 的 方案 中 ，IDS 也 必须 同样 严格 地 被 编写 、 调 试 
和 验证 。 

如 上 文 提 到 的 ， 将 IDS 与 VMM 分 离开 ,使 IDS 必须 通过 接口 来 通信 降低 了 IDS 机 能 的 效 
率 。 不 过 这 避免 了 加 重 VMM 的 负担 ，VMM 是 系统 操作 的 重要 组 件 ， 必 须 高 效 且 被 验证 。 

Livewire 系统 ( Garfinkel 和 Rosenblum 2003) 是 一 个 分 离 了 IDS 和 VMM 系统 的 例子 。 
VMM 为 了 支持 外 部 的 IDS 所 需 的 接口 而 作 的 改变 最 小 ， 而 且 不 会 损害 VMM 本 身 的 健壮 性 和 效 
率 。IDS 配置 VMM 来 收集 虚拟 机 的 活动 信息 。 为 达到 这 点 ， 系 统 规定 了 额外 的 事件 或 指令 ， 它 
们 让 虚拟 机 把 控制 权 释 放 给 VMM 以 收集 所 需 的 信息 。 还 给 YMM 提供 了 一 系列 对 收集 到 的 信息 
的 检查 ， 这 些 检 查 可 能 是 简单 地 把 活动 与 已 知 恶意 活动 的 模板 进行 匹配 。 因 此 ,一 旦 设 定好 ， 
VMM 就 可 以 完成 所 有 需要 的 活动 而 不 需要 和 DS 模块 来 回 地 通信 。 如 果 检 测 到 恶意 事件 的 信 
号 ， 虚 拟 机 就 被 挂 起 ， 通 知 IDS， 并 向 IDS 提供 收集 到 的 监视 数据 。IDS 测试 这 些 数据 ， 然 后 给 
VMM 一 个 响应 来 指导 它 重新 开始 虚拟 机 的 操作 ， 如 果 虚 拟 机 不 能 确保 系统 没有 被 危及 则 停止 虚 
拟 机 。 

刚才 描述 的 系统 很 简单 ， 因 为 它 在 概念 上 是 不 正式 的 (stateless) 。 确 定 停止 虚拟 机 还 是 允许 
它 继续 仅仅 取决 于 检测 到 可 疑 活动 时 VMM 提供 的 信息 ， 这 可 能 是 有 限制 的 。 某 些 安全 性 度量 需 
要 并 人 人 侵 检 测 机 制 中 的 状态 。 通 常 ， 可 疑 事件 可 能 不 直接 被 确认 为 是 恶意 的 ， 还 需要 进一步 详 
细 考 察 其 他 事件 来 确定 。 例 如 ， 在 一 系列 登录 尝试 后 立即 监视 系统 调用 活动 可 以 提高 把 登录 的 
用 户 识别 成 人 侵 者 的 可 信和 度 。 为 达到 这 点 ，IDS 可 以 在 一 系列 失败 的 登录 尝试 后 立即 向 VMM 发 
送 一 个 命令 ， 指 导 它 监视 被 保护 的 虚拟 机 打算 使 用 的 所 有 陷阱 和 中 断 。 

不 同 于 虚拟 机 ，IDS 需要 虚拟 机 上 运行 的 操作 系统 类 型 的 信息 。 人 侵 常 随 被 攻击 的 操作 系统 
不 同 而 呈现 不 同 的 特征 ， 从 而 一 个 DS 趋向 于 有 一 些 与 具体 操作 系统 相关 的 机 制 。 例 如 ， 
Livewire 系统 包括 一 个 OS 接口 库 以 允许 IDS 对 虚拟 机 生成 的 故障 信息 进行 分 析 ， 这 与 在 操作 系 
统 上 运行 的 应 用 程序 所 做 的 相 类 似 。 

前 面 我 们 提 到 给 VMM 提供 一 列 检查 和 用 在 监视 处 理 中 的 模板 ， 这 是 策略 引擎 (policy en- 
gine) 的 功能 ， 策 略 引擎 是 DS 确定 监视 如 何 进 行 和 确定 观察 到 的 行为 是 否 匹 配 恶意 活动 信号 的 
部 分 。 到 VMM 的 接口 连同 提 到 的 OS 接口 库 一 起 提供 建立 策略 引擎 的 策略 模块 (policy mod- 
ules) 的 框架 。Livewire ( 见 图 10-4) 使 用 这 种 技术 构建 了 一 些 策略 模块 ， 每 个 模块 只 有 30 到 
130 行 代码 。 关 于 这 些 在 Linux 系统 上 实现 的 更 多 细节 由 Garfinkel 和 Rosenblum (2003) 提出 ; 
下 面 是 几 个 例子 。 

。 测 谎 器 模块 (Lie detector module); 攻击 者 常 通过 欺骗 系统 掩藏 它们 的 活动 ， 它 们 通过 控 

制 、 修 改 系统 ， 给 系统 请 求 提供 假 响 应 来 掩藏 它们 的 活动 。 一 个 基于 虚拟 机 的 人 侵 检 测 
系统 可 以 给 被 攻击 的 系统 发 送 关 于 系统 状态 的 询问 ， 然 后 将 它 提供 的 结果 与 VMM 完全 
了 解 的 系统 硬件 状态 比较 ， 以 此 阻止 这 些 企图 。 
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K 10-4 Livewire 和 人 侵 检测 系统 (Garfinkel 和 Rosenblum 2003 ) 。 这 个 IDS 可 以 被 看 成 建立 在 
VMM 上 的 另 一 个 虚拟 机 ， 但 拥有 特殊 的 权限 。 这 个 IDS 的 主要 组 件 包括 : a) OS 接口 
库 ， 提 供 被 监视 的 虚拟 机 的 操作 系统 级 的 视图 ， 通 过 解释 客户 OS 利用 VMM 返回 的 元 
数据 实现 ; b) 策略 引擎 (policy engine), ， 提 供 实现 通用 策略 和 一 组 策略 模块 的 框架 ， 
每 个 策略 模块 实现 一 个 人 侵 检测 模式 。VMM 将 IDS 与 被 监视 的 虚拟 机 隔离 


。 用 户 程序 完整 性 检测 模块 〈《User program integrity detector module): 在 攻击 者 修改 了 内 存 
中 长 期 运行 的 程序 的 内 容 后 ， 检 查 存 储 在 磁盘 上 的 二 进 制 代码 并 没有 什么 帮助 。Livewire 
使 用 VMM 检查 内 存 中 程序 的 每 个 代码 页 ， 并 生成 一 个 信号 〈 如 校 验 和 ) ， 然 后 这 个 信和 号 
与 存储 在 其 他 地 方 的 同一 页 的 已 知 正 确信 号 比较 ， 任 何 差异 都 被 作为 潜在 的 对 安全 性 的 
违例 标记 出 来 。 
信和 号 检测 模块 (signature detector module): 传统 上 杀毒 程序 依赖 于 这 个 事实 : 大 多 数 新 
的 病毒 和 木马 程序 简单 地 重用 已 知 的 技术 一 一 常 是 复制 旧 的 病毒 或 木马 程序 的 基本 内 核 
代码 。 因 此 很 容易 有 效 地 创建 这 些 内 核 的 信号 ， 然 后 在 那些 容易 被 攻击 的 文件 中 查找 这 
些 信 号 。 虚 拟 机 技术 允许 把 这 样 的 检测 技术 扩展 到 系统 的 整个 内 存 。VMM 访问 虚拟 机 的 
虚拟 硬件 ， 因 此 入 侵 检测 系统 可 以 利用 VMM 的 接口 周期 性 的 扫描 内 存 查找 这 些 信 和 号 。 
内 存 访问 监视 程序 模块 (Memory access enforcer module) ; 传统 操作 系统 通过 使 内 存 的 代 
码 段 和 其 他 重要 部 分 只 读 来 保护 它们 。 完 整 性 检测 技术 有 时 用 来 确保 特定 重要 区 域 没有 
被 损坏 ， 仍 然 将 这 些 区 域 作 为 只 读 模式 保护 ， 但 这 些 技术 只 能 在 攻击 发 生 后 检测 。 通 过 
在 虚拟 机 内 部 运行 系统 ， 将 重要 区 域 设 为 只 读 ， 能 够 使 它们 在 攻击 下 得 到 更 好 更 及 时 的 
保护 。 任 何 改变 这 些 页 面 访问 权限 的 企图 都 被 VMM 中 途 阻 止 ， 然 后 停止 系统 。 

实现 的 策略 模块 通常 分 为 两 类 : 轮 询 模块 和 事件 驱动 模块 。 轮 询 模块 以 固定 的 间隔 轮流 检 
测 系统 以 查找 恶意 活动 程序 ， 而 事件 驱动 模块 报告 系统 中 发 生 的 不 受 欢迎 事件 。 内 存 访问 监视 
程序 就 是 一 个 事件 驱动 策略 模块 ; 其 他 的 例子 是 轮 询 模块 。 

虚拟 机 技术 利用 它 较 好 的 隔离 特性 消除 了 HDS 与 NIDS 相 比 的 一 些 缺 点 。 正 如 很 自然 地 扩 
展现 有 的 虚拟 机 系统 来 支持 入 侵 检 测 ， 有 一 天 入侵 检 测 也 可 能 成 为 虚拟 机 发 展 的 动力 。 

利用 虚拟 机 做 安全 完整 的 日 志 

对 系统 活动 的 日 志 是 计算 机 系统 对 抗 恶意 攻击 的 重要 部 分 ， 如 前 所 述 ,保存 系统 活动 的 日 
志 能 分 析 与 攻击 相关 的 事件 ， 特 别 是 当 这 些 数 据 在 紧 靠 攻击 前 和 攻击 过 程 这 段 时 间 可 用 。 这 个 
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分 析 会 导致 两 个 技术 : a 预见 攻击 和 b. 分 辨 攻击 什么 时 候 发 生 。 

日 志 通 常 的 方法 是 记录 对 系统 重要 和 关键 部 分 的 所 有 访问 ， 例 如 登录 企图 、 网 络 相关 事件 、 
访问 系统 注册 表 以 及 调用 超级 用 户 和 系统 管理 员 级 命令 。 不 幸 的 是 ， 这 些 信息 在 攻击 之 下 是 不 
可 信赖 的 一 一 攻击 者 获得 对 操作 系统 的 控制 权 ， 这 样 就 可 以 改变 日 志 的 信息 来 掩藏 攻击 。 此 外 ， 
日 志 中 入 侵 证 据 可 能 是 可 用 的 ， 但 是 并 没有 足够 信息 确定 导致 被 成 功 攻击 的 valnerability。 

密歇根 大 学 的 研究 者 (Dunlap 等 2002) 提出 一 个 基于 虚拟 机 的 系统 ， 称 为 ReVirt， 试 图 解 
决 这 些 问题 ， 即 ， 无 法 确保 日 志 信 息 的 完整 性 和 传统 日 志 信 息 的 不 完备 问题 。 他 们 使 用 VMM 来 
把 日 志 进 程 与 被 监视 的 系统 分 开 ， 并 收集 一 条 一 条 指令 来 恢复 系统 较 长 时 间 活 动 需要 的 所 有 信 
息 一 一 潜在 地 从 攻击 开始 前 的 点 开始 ， 持 续 到 攻击 结束 。 

任何 计算 机 系统 都 可 以 被 看 作 一 个 有 限 状 态 机 。 如 果 起 始 状态 已 知 ， 只 要 知道 输入 序列 就 
足以 恢复 它 的 整个 执行 ;系统 经 历 的 状态 集合 常常 可 以 通过 重新 执行 程序 而 简单 地 确定 。 然 而 ， 
也 存在 系统 在 状态 之 间 的 转换 是 依赖 于 时 间 的 情况 一 一 在 这 种 情况 下 ， 重 现 以 前 执行 的 效果 需 
要 模拟 在 以 前 执行 时 记录 下 的 那个 事件 的 输入 。 

记录 不 确定 时 间 的 更 好 的 基准 是 机 器 完成 的 指令 数量 而 不 是 系统 时 钟 的 时 间 。 人 们 观察 到 
(Bressoud 和 Schneider 1996) 即使 输入 全 部 可 以 确定 ， 例 如 一 个 没有 17O 的 程序 ， 一 条 指令 执行 
的 时 间 也 会 改变 ， 即 使 执行 的 指令 数量 保持 不 变 。 这 由 许多 因素 造成 ， 最 明显 的 一 个 因素 是 访 存 
延迟 可 变 ， 依赖 于 和 系统 中 同时 执行 的 其 他 应 用 的 交互 。 现 代 处 理 器 常 提供 性 能 监视 硬件 来 对 
完成 的 指令 计数 ， 因 此 可 以 在 达到 特定 指令 数量 时 触发 一 个 事件 。 不 过 ， 一 个 更 高 效 且 效果 相同 
的 度量 是 机 器 热 行 的 分 支 数量 。 事 件 的 定位 完全 可 以 通过 从 程序 开始 时 执行 的 确切 分 支 数量 和 
事件 发 生 时 指令 程序 计数 器 的 值 来 刻画 。 

计数 事件 ， 例 如 执行 的 指令 数量 或 执行 的 分 支 数量 ， 都 是 通过 设置 ISA 可 见 的 其 新 性 能 计 
数 器 来 实现 。 每 有 一 个 事件 发 生 ， 计 数 器 就 减 1， 当 计数 器 值 减 为 0， 产 生 一 个 中 断 通 知 应 用 期 
望 的 计数 已 到 达 。ReVirt 的 设计 者 发 现在 IA-32 处 理 器 (或 者 其 他 处 理 器 ) 上 计数 器 产生 的 中 断 
并 不 立即 中 止 执 行 而 是 在 几 十 条 指令 之 后 发 生 。 为 了 在 计算 中 确保 在 精确 点 传递 不 确定 事件 ， 
他 们 使 用 一 种 两 阶段 技术 ， 如 图 10-5 所 示 。 在 重新 执行 开始 时 必须 知道 事件 发 生前 要 被 执行 的 
分 支 的 精确 数量 ， 还 要 知道 最 后 一 个 分 支 之 后 基本 块 内 的 期 望 点 的 指令 地 址 。 在 第 一 阶段 ，IA- 
32 处 理 器 的 分 支 性 能 计数 器 置 位 成 可 以 记录 128 个 分 支 。 在 分 支 数 超过 128 时 由 计数 器 产生 一 个 
中 断 ， 从 这 点 调用 第 二 阶段 。 在 这 个 阶段 断 点 被 设置 成 事件 发 生 所 记录 的 程序 计数 器 值 。 每 次 程 
序 执行 到 这 个 断 点 ， 检 查分 支 数 以 确定 是 否 执行 了 期 望 数量 的 分 支 ， 如 果 执 行 了 期 望 数量 的 分 
支 ， 就 到 达 了 确定 的 点 ， 热 行 就 进行 到 期 望 地 址 的 指令 。 

记录 的 事件 数量 会 增长 到 不 可 控制 的 规模 ， 除 非 注意 最 小 化 记录 的 信息 。 注 意 : 只 有 影响 被 监 
视点 拟 机 执行 的 事件 需要 记录 ; 不 需要 记录 到 达 VMM 但 不 发 送 到 虚拟 机 本 身 的 事件 。 一 些 通常 必 
须 记录 的 事件 是 定时 器 和 LO 中 断 。 有 些 情况 除了 记录 事件 本 身 还 要 记录 实际 输入 的 值 ， 例 如 来 自 
键盘 、 鼠 标 、 网 络 接口 卡 、 实 时 时 钟 和 CD 驱动 器 的 输入 。 如 果 我 们 能 确保 来 自 硬件 驱动 器 的 输入 
在 重新 执行 时 能 置 为 原始 状态 就 不 需要 记录 。 即 使 是 在 以 CD 驱动 器 作为 输入 的 情况 ， 如 果 原 始 
CD 在 重新 执行 时 可 用 则 从 介质 上 读 取 的 实际 值 也 不 需要 记录 ,因为 在 这 种 情况 下 ， 这 些 事件 都 是 
确定 的 。 

了 解 具体 系统 的 特性 对 确保 适当 记录 所 有 不 确定 事件 很 重要 。 作 为 必须 考虑 的 与 具体 系统 
相关 的 例子 ，ReVirt 的 论文 (Dunlap 等 人 ，2002) 中 指出 以 下 三 种 与 IA-32 相关 的 特征 : 

1. JIA-32 架构 允许 中 断 长 访 存 指令 〈 如 ， 字 符 串 指令 ) ， 即 异步 中 断 可 以 造成 在 一 条 指令 执 
行 的 过 程 中 进行 上 下 文 切 换 。 一 种 实现 方法 是 通过 保存 寄存 器 ecx 的 值 作为 状态 的 一 部 分 ， 在 处 
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理 完 中 断后 来 获得 必须 的 信息 ， 从 指令 换 出 的 地 方 恢复 指令 的 执行 。 这 意味 着 当 被 中 断 的 指令 
恰好 是 字符 串 指令 时 ， 记 录 不 确定 事件 的 同时 必须 要 记录 寄存 器 的 值 。 


分 支 1 分 支 1 [一 一 一 一 | 


分 支 2 人 一 一 BE 2 


到 达 斯 点 
DEHRA n, WE 


| 
到 达 断 点 
分 支 计 数 不 匹 配 


感 兴趣 的 事件 感 兴趣 的 事件 
AE nel Fd 


图 10-5 在 应 答 期 间 准确 传递 不 确定 事件 的 两 阶段 方法 


2. 读 时 间 惟 计数 器 (rdtsc) 指令 返回 不 确定 的 值 ， 但 这 条 指令 在 用 户 状态 时 不 会 陷 人 中 断 
除非 通过 特殊 方式 置 位 了 控制 寄存 器 CR4。 处 理 这 个 指令 的 一 种 方法 是 第 8 章 中 描述 过 的 ， 虚 拟 
机 像 处 理 其 他 敏感 非特 权 的 指令 一 样 来 处 理 ， 即 : 提前 为 指令 扫描 ， 揪 人 一 个 trap， 然 后 仿真 这 
条 指令 。ReVirt 系统 设置 CR4 使 这 个 指令 陷 人 中 断 ， 用 库 调 用 例 程 gettimeofday () ( 它 不 用 
rdtsc 指令 ) 来 代替 这 条 指令 ， 扩 展 返 回 值 来 解决 系统 开销 。 

3. 类 似 的 情况 发 生 在 读 性 能 监视 计数 器 (rdpmc) 指令 。 这 个 指令 也 表现 出 不 确定 的 行为 ， 
如 同 rdtsc 指令 它 也 不 会 在 用 户 态 下 陷入 中 断 。RevVirt 系统 也 像 处 理 rdtsc 指令 一 样 设置 CR4 使 这 个 
指令 在 用 户 态 陷 和 人 中断， 然后 简单 地 禁止 客户 核心 的 指令 ,让 应 用 程序 运行 在 被 监视 的 虚拟 机 上 。 

ReVir 系统 建立 在 基于 Linux (UMlinux 2002) 的 本 地 虚拟 机 系统 上 。 系 统 的 功能 一 一 特别 是 检 
测 外 部 中 断 事件 发 生 和 在 计算 中 在 精确 位 置 传 递 这 些 中 断 事件 的 功能 一 一 已 经 利用 特殊 的 kemel 验证 
过 了 。 在 大 量 不 同类 型 benchmark 中 发 现 日 志 造 成 的 性 能 开销 低 于 8% 。Log 的 增长 率 在 每 天 40MB 至 
1400MB 之 间 。 这 些 数 据 都 是 合理 的 ， 而 且 实 践 中 允许 连续 多 天 甚至 可 能 是 多 个 月 进行 日 志 。 


10. 1.4 动态 二 进 制 代码 重 写 在 安全 性 中 的 角色 


在 4.7 节 我 们 表述 了 一 种 主机 和 客户 ISA 相同 的 进程 虚拟 机 ， 它 的 主要 目的 是 为 一 个 特定 的 
平台 优化 代码 。 在 这 种 系统 中 ， 程 序 在 运行 时 软件 的 控制 下 执行 ， 运 行 时 软件 解释 程序 中 的 指 
令 ， 确 定 频 繁 执行 的 代码 区 域 (例如 超 块 )， 对 这 些 区 域 进行 翻译 和 优化 ， 在 代码 cache 中 保存 
优化 后 的 二 进 制 码 。 

通过 运行 时 软件 控制 程序 执行 的 能 力 ， 也 使 运行 时 软件 将 程序 的 执行 沙 盒 化 ， 同 时 保护 程 
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序 避 免 受到 潜在 人 侵 者 的 攻击 以 及 避免 程序 成 为 开始 攻击 系统 的 地 方 。 这 是 program shepherding 
(Kiriansky , Bruening 和 Amarasinghe 2002) 的 基本 原理 ，program shepherding 的 概念 在 RIO 动态 
优化 基本 结构 中 实现 (Bruening, Duesterwald 和 Amarasinghe 2001 ) ， 这 个 框架 是 对 Dynamo bina- 
ry optimization 系统 (Bala，Duesterwald 和 Banerjia 2000 ) 的 发 展 。 

Program shepherding 背后 的 基本 思想 是 程序 可 以 得 到 充分 的 保护 ， 只 要 保证 每 个 branch 或 
jump 都 转移 到 合法 的 位 置 ， 每 个 branch 跳 转 到 的 代码 区 域 是 起 源 于 同一 程序 的 其 他 部 分 或 是 系 
统 中 其 他 可 信 的 位 置 。 这 在 编译 时 并 不 容易 实现 ， 因 为 静态 分 析 无 法 确定 动态 共享 库 的 地 址 和 
许多 间接 跳 转 的 目标 。 因 此 程序 的 安全 执行 只 能 通过 运行 时 检查 来 保证 。 

限制 控制 转移 

现在 来 看 一 下 如 何 约束 控制 转移 。 一 个 方法 是 在 branch 和 jump. 的 位 置 插 桩 指令 (instrumen- 
tation， 即 一 些 指 令 ) 来 检测 目标 是 否 有 效 ， 但 这 种 方法 会 很 大 地 降低 程序 执行 的 性 能 ， 此 外 当 
程序 受到 攻击 时 ,攻击 者 还 可 以 改变 插 桩 的 指令 来 绕 过 检测 。 一 个 更 有 效 的 方法 是 利用 动态 二 
进 制 代码 优化 中 的 一 些 技术 。 一 段 代码 在 其 第 一 次 执行 时 被 解释 ， 条 件 和 间接 转移 的 目标 记录 
在 一 个 安全 的 位 置 。 当 同一 基本 块 序列 执行 了 预 置 次 数 ， 这 个 基本 块 序列 被 组 装 成 一 个 超 块 ， 再 
次 优化 ， 然 后 放 入 代码 cache 中 。 如 第 3 章 中 描述 的 ， 这 种 系统 中 的 运行 时 软件 在 解释 阶段 以 及 
从 代码 cache 中 执行 期 间 ， 进 行 跳 转 目标 有 效 性 的 检测 。 如 果 一 个 超 块 代表 了 执行 的 典型 路 径 ， 
对 代码 cache 外 的 执行 的 有 效 性 检测 频率 就 较 低 。 为 了 保证 正在 执行 的 代码 不 被 恶意 修改 ,代码 
cache 本 身 需 要 受到 保护 ， 这 可 以 通过 只 允许 在 运行 时 软件 处 在 控制 时 使 代码 cache 可 写 。 

图 10-6 全 面 纵 览 了 RIO 系统 基础 结构 。 这 个 系统 的 特点 是 RIO 代码 和 应 用 程序 代码 都 作为 
同一 个 进程 的 一 部 分 工作 ， 并 共享 地 址 空间 ， 这 是 从 Dynamo 系统 继承 来 的 ，Dynamo 系统 在 
4.7.2 节 中 描述 了 。 虽 然 RIO 和 应 用 程序 都 是 同一 个 进程 的 一 部 分 ， 但 它们 处 于 两 种 不 同 的 机 器 
操作 模式 下 ， 基 础 结构 代码 工作 在 RIO 模式 ， 应 用 程序 工作 在 应 用 模式 。 系 统 开始 时 先 扫描 指 
令 ， 搜 集 基本 块 ， 把 它们 插入 到 基本 块 cache (basic block cache) 中 ， 基 本 块 cache 是 主 存 中 被 
保护 不 被 覆盖 的 一 块 区 域 。 遇 到 branch K jump, APA (BH) 检测 下 一 个 基本 块 是 否 
已 经 被 缓存 。 如 果 是 而 且 直 接 跳 转 地 址 已 经 给 定 ， 就 将 cache 中 的 这 两 个 基本 块 用 一 个 新 的 直接 
branch 链接 起 来 ， 这 样 就 可 以 避免 下 次 再 查找 映射 表 。 通 过 将 经 常 执行 的 基本 块 序列 组 合成 一 个 
超 块 ， 然 后 将 这 个 超 块 插入 cache 中 (如 图 10-6 中 的 超 块 cache 所 示 ) 可 以 获得 更 高 的 性 能 。 搜 
集 基 本 块 和 超 块 是 在 RIO 模式 下 完成 ， 但 这 些 代码 本 身 的 执行 是 在 应 用 模式 下 完成 。 切 换 到 RIO 
模式 发 生 在 基本 块 cache 或 代码 cache 中 查询 控制 转移 失败 时 。 





图 10-6 RIO 系统 (Kiriansky, Bruening 和 Amarasinghe 2002) 流 图 ， 虚 线 箭 
头 表示 操作 在 应 用 模式 和 RIO 模式 之 间 切 换 时 的 性 能 关键 功能 
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控制 流转 移 的 控制 可 以 用 以 下 方式 达到 。 对 每 个 从 一 个 缓存 的 基本 块 到 另 一 个 的 直接 分 支 ， 
在 链接 两 个 基本 块 时 执行 安全 性 检查 ， 只 有 安全 性 规则 允许 直接 转移 时 才 加 入 链接 ， 否 则 控制 
转交 给 运行 时 例 程 来 检测 和 处 理 所 有 潜在 的 安全 隐患 。 一 旦 加 入 链接 ， 它 就 是 基本 块 cache (或 
超 块 cache) 的 一 部 分 ， 它 本 身 也 受到 保护 以 避免 被 自 改 。 当 程序 被 限定 到 这 样 的 链接 的 分 支 时 
并 没有 运行 时 的 开销 ， 实 际 上 甚至 可 以 从 这 些 有 效 代码 布局 中 得 到 性 能 提高 。 

间接 跳 转 目标 需要 查询 映射 表 来 确定 到 基本 块 cache 和 代码 cache 相应 位 置 的 目标 地 址 映 
射 。 只 有 有 效 的 cache 地 址 会 被 放 入 映射 表 中 ， 这 解决 了 绝 大 部 分 跳 转 地 址 。 映 射 表 的 项 还 可 
以 记录 额外 的 检测 ， 例 如 ， 检 测 从 子 程序 的 返回 目标 地 址 以 确保 程序 返回 到 紧邻 原始 调用 的 
位 置 。 这 种 检测 可 以 成 功 抵制 10. 1 节 描 述 的 攻击 ， 即 修改 栈 使 程序 返回 到 不 合适 位 置 的 攻击 
方式 。 

通常 ， 分 支 和 跳 转 目 标 中 只 有 跳 转 到 被 保护 的 代码 段 外 的 间接 跳 转 会 带 来 程序 性 能 的 下 降 。 
RIO 系统 通过 执行 动态 检测 ， 在 遇 到 这 种 跳 转 指令 时 检测 目标 地 址 的 有 效 性 。 

限制 代码 执行 

执行 一 段 代 码 前 必须 对 原始 代码 进行 验证 。 这 些 验证 不 仅 发 生 在 从 磁盘 或 网 络 中 加 载 代码 
时 ， 还 发 生 在 代码 的 执行 过 程 中 一 一 内 存 中 的 代码 可 能 被 系统 中 其 他 程序 甚至 它 自 己 修改 。 对 
内 存 中 代码 的 任何 修改 都 必须 遵守 安全 性 规则 ， 否 则 就 被 禁止 。 

RIO 系统 中 这 种 类 型 的 大 部 分 检测 都 是 在 系统 拷贝 一 段 指令 序列 到 基本 块 cache 时 执行 。 主 
要 的 挑战 是 要 保证 代码 被 取 到 内 存 后 和 被 拷贝 到 基本 块 cache 前 不 会 被 算 改 。 现 代 程序 的 二 进 制 
文件 格式 将 代码 段 与 数据 段 分 开 ， 允许 加 载 器 将 写 保护 的 代码 页 加 载 到 内 存 中 。 任 何 试图 修改 
代码 的 尝试 都 会 导致 异常 。 同 时 ， 系 统 也 必须 处 理 动态 生成 的 代码 ， 当 它 合法 时 则 允许 执行 这 些 
代码 ， 不 合法 时 则 阻止 这 些 代码 的 执行 。 

有 两 种 情形 很 重要 。 第 一 种 是 加 载 并 执行 生成 的 新 的 代码 段 。 在 这 种 情形 下 ， 该 代码 段 常 从 
可 写 转 换 成 写 保护 状态 。RIO 系统 在 转换 时 验证 代码 ， 只 人 允许 那些 可 信 代 码 发 出 的 转换 请 求 。 类 
似 地 ， 如 果 程 序 执行 一 个 直接 跳 转 进入 一 个 可 写 的 空间 ， 系 统 要 验证 原始 的 跳 转 ， 并 在 执行 继续 
前 将 目标 空间 转换 成 写 保护 状态 。 

第 二 种 情形 发 生 在 代码 和 数据 共享 相同 的 页 时 一 一 这 种 情形 比较 有 趣 。 因 为 数据 区 是 不 
需要 被 写 保护 的 ， 这 样 就 需要 保存 这 个 页 的 两 个 拷贝 ， 其 中 一 个 是 写 保 护 的 ， 是 指令 的 来 源 ， 
另 一 个 作为 数据 读 和 写 的 且 标 ， 不 需要 被 写 保 护 。 这 种 解决 方法 对 大 多 数 普通 情况 在 是 足够 
的 ,但 是 它 无 法 处 理 代码 本 身 被 程序 修改 的 情形 一 一 自修 改 代码 (self-modifying code) 的 情 
形 。 这 些 对 代码 的 修改 必须 由 运行 时 监视 器 截取 来 保证 它们 的 合法 执行 。 系 统 有 必要 监视 对 
写 保 护 区 的 所 有 写 操 作 ， 并 验证 这 些 写 的 来 源 。 如 果 是 一 个 合法 的 自修 改 ， 监 视 器 就 使 该 页 
可 写 ， 允 许 执行 写 操作 ， 完 成 写 操作 并 确定 清除 了 基本 块 cache 和 代码 cache 中 所 有 受到 影响 
的 区 域 后 再 对 代码 页 写 保护 。 很 显然 ， 这 种 情形 极 大 地 降低 了 系统 性 能 。 幸 运 的 是 ， 这 种 情形 
在 现代 程序 中 并 不 经 常 发 生 。 

保护 运行 时 监视 器 

RIO 系统 设计 者 们 利用 对 RIO 模式 和 应 用 模式 下 操作 的 不 同 页 保护 来 保护 RIO 系统 代码 本 
身 不 受 攻击 。 即 使 两 种 模式 工作 在 同一 个 地 址 空间 ，RIO 模式 比 应 用 模式 拥有 略 高 的 页 访问 特 
权 。 机 器 切换 模式 时 的 行为 类 似 “ 上 下 文 切换 "。 表 10-1 给 出 了 在 RIO 模式 和 应 用 模式 下 对 不 
同类 型 页 的 访问 特权 。 例 如 ，RIO 模式 下 代码 cache 本 身 具有 读 和 写 的 权利 ,但 在 应 用 模式 下 只 
有 读 和 执行 的 权利 。RIO 系统 中 使 用 的 表 ， 例 如 映射 表 ， 在 应 用 模式 下 是 只 读 的, 但 在 RIO 模 
式 下 既 可 读 又 可 写 。 
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# 10-1 RIO 系统 中 的 页 访问 特权 





页 类 型 RIO 模式 应 用 模式 
应 用 程序 代码 R R 
应 用 程序 数据 RW RW 
RIO 代码 高 速 缓存 RW R(E) 
RIO 代码 R(E) R 
RIO 数据 RW R 





注 ; R—Rit, RW—#/S, R (E) 一 可 执行 。 
10.1.5 未 来 的 安全 系统 


安全 是 一 个 在 过 去 没有 被 系统 地 解决 的 间 题 。 一 些 用 户 和 组 织 都 已 开始 思考 如 何 划分 他 们 
的 平台 ,以 使 其 可 以 运行 开放 的 、 通 用 的 、 广 泛 使 用 的 系统 、 不 安全 的 应 用 以 及 必须 被 保护 且 保 
持 高 度 安全 的 应 用 和 数据 。Terra 系统 ( Garfinkel2003 ) 试图 通过 建立 支持 虚拟 机 的 可 信任 的 虚 
拟 机 监视 器 ， 并 结合 专门 的 语义 ， 以 及 在 和 运行 常规 、 开 放 、 通 用 应 用 的 虚拟 机 相同 的 硬件 平台 
上 建立 不 允许 自 改 的 硬件 来 达到 这 个 目的 。 

在 这 一 节 我 们 看 到 在 本 书 前 面 章节 中 描述 的 各 种 处 理 安全 性 问题 的 技术 的 应 用 。 思 考 这 些 
不 同 问题 和 提出 解决 方法 的 过 程 已 经 并 将 继续 促进 寻找 避免 棘手 的 安全 问题 的 重要 方法 。 随 着 
新 的 计算 模型 的 出 现 ， 安 全 性 问题 将 成 为 在 设计 计算 环境 及 其 应 用 时 不 惜 牺牲 性 能 也 要 解决 的 
问题 。 如 第 5、6 章 中 描述 的 HLL 虚拟 机 就 是 一 个 例子 。 在 相当 长 的 一 段 时 间 内 ,现存 计算 环境 
中 的 大 量 遗 留 代码 仍 需 采 用 本 节 讨 论 的 方法 解决 安全 性 问题 。 


10.2 计算 环境 的 迁移 


许多 人 常 需要 在 分 布 于 不 同位 置 的 多 台 计 算 机 上 一 一 如 家 中 的 和 工作 场所 的 计算 机 上 一 一 
维护 程序 和 工作 。 通 常 ， 用 户 在 不 同 场所 的 工作 有 一 些 交 集 ， 而 且 多 个 不 同 场所 的 工作 都 需要 用 
户 数据 。 为 了 给 这 种 多 工作 站 点 的 环境 提供 方便 ， 可 以 在 不 同 的 计算 机 上 安装 同样 的 操作 系统 
和 同样 的 应 用 和 集合。 不 过 ， 不 同 的 安装 环境 之 间 常 存在 使 用 户 感 到 受挫 的 细微 差别 。 例 如 ， 一 个 
工作 站 的 应 用 程序 版 本 可 能 与 另 一 个 赂 有 不 同 ， 这 或 许 是 因为 一 个 工作 站 机 器 升级 了 ， 而 另 一 
个 没有 升级 。 大 家 很 自然 地 会 问 有 没有 方法 使 用 户 无 论 在 何 处 工作 都 看 到 同样 的 计算 环境 。 

许多 用 户 通过 只 在 可 移动 的 设备 ， 如 笔记 本 电脑 上 工作 来 解决 这 样 的 问题 。 这 可 以 保证 用 
户 总 是 看 到 完全 相同 的 环境 ， 并 在 这 些 环 境 下 工作 ， 但 它 有 两 个 重要 的 缺点 。 第 一 ， 用 户 需要 携 
带 物理 设备 来 运送 环境 ; 第 二 ， 这 意味 着 用 户 总 是 要 对 可 移动 设备 的 物理 安全 性 负责 。 

在 20 世纪 60 年 代 ， 大 型 服务 器 通过 为 用 户 〈 至 少 在 大 型 办 公 楼 的 附近 ) 提供 简单 、“ 旺 的 
(dumb) ”终端 作为 用 户 与 系统 的 唯一 接口 来 解决 这 个 问题 。 操 作 系统 、 应 用 以 及 用 户 数据 驻 留 
在 一 个 集中 的 位 置 ， 通 过 一 连 串 的 网 络 连接 从 终端 访问 它们 。 第 8 章 描 述 的 系统 虚拟 机 环境 延伸 
了 这 个 概念 ， 它 让 每 个 用 户 觉得 是 他 或 她 独 享 所 访问 的 计算 机 。 虚 拟 机 概念 提供 了 允许 每 个 用 
户 定制 他 或 她 的 环境 的 可 行 性 ， 同 时 通过 隔离 不 同 用 户 的 环境 保证 安全 性 。 

过 去 的 数 十 年 中 ， 计 算 机 设备 的 价格 和 规模 都 显著 地 降低 。 大 型 机 的 哑 终 端 现在 已 经 成 为 
拥有 自己 right 的 复杂 计算 机 。 虽 然 大 型 服务 器 的 概念 仍然 存在 ， 今 天 的 大 多 数 用 户 通过 能 够 处 
理 复杂 计算 的 设备 访问 大 型 服务 器 和 Intermet。 这 些 处 理 包 括 图 像 绘 制 、 游 戏 模拟 、Web 浏览 和 
文本 文档 编辑 。 当 用 户 从 一 个 地 方 移 到 另 一 个 地 方 时 ， 需 要 复制 与 这 些 界面 关联 的 环境 。 

从 一 个 计算 机 向 另 一 个 计算 机 复制 这 种 环境 并 不 简单 ， 因 为 这 意味 着 需要 转移 大 量 的 状态 


304 #10 # 








信息 。 机 器 的 状态 不 仅 包括 操作 系统 和 应 用 程序 所 使 用 的 资源 状态 ， 还 包括 操作 系统 和 应 用 程 
序 的 代码 和 数据 。 因 此 ， 建 立 一 个 capsule 来 捕捉 运行 的 机 器 状态 和 关于 在 系统 中 当前 活动 的 进 
程 的 信息 。capsule 的 概念 允许 把 一 个 以 移植 为 目标 的 用 户 环 境 作为 对 象 来 处 理 。 

即便 假设 不 同 地 方 的 实际 硬件 相同 ， 在 用 户 可 以 在 另 一 台 计 算 机 上 执行 操作 之 前 ， 为 复制 环境 
也 需要 把 所 有 状态 信息 封装 ， 通 过 网 络 传输 ， 安 装 在 另 一 台 计 算 机 上 。 这 些 操作 必须 高 效 地 执行 以 
使 得 对 用 户 达到 无 颖 的 环境 切换 。 下 面 的 各 小 节 将 专门 讨论 如 何 使 这 种 环境 移植 可 行 而 且 高 效 。 


10.2.1 虚拟 计算 机 


如 我 们 提 到 过 的 ， 虚 拟 机 技术 提供 了 捕捉 计算 机 系统 全 部 状态 的 能 力 ， 因 此 方便 了 对 整个 计算 
环境 的 移植 。 传 统 上 为 了 向 另 一 台 计 算 机 移植 ， 必 须 关闭 第 一 台 计 算 机 上 的 所 有 程序 ， 关 机 ， 然 后 
传送 硬件 驱动 器 或 拷贝 第 一 台 计算 机 上 硬件 驱动 器 的 所 有 信息 到 第 二 台 计 算 机 的 硬件 驱动 器 。 
通常 ， 这 种 看 似 简单 的 方法 会 因为 两 台 机 器 在 配置 上 的 很 细微 差异 而 变 得 非常 复杂 。 虚 拟 机 技 
术 在 消除 这 些 差异 上 有 其 固有 的 优点 。 如 果 环 境 是 运行 在 虚拟 机 上 而 不 是 直接 运行 在 真实 机 器 上 ， 
则 环境 封装 的 过 程 会 更 简单 。 虚 拟 机 监视 器 必须 构建 一 个 数据 结构 ， 分 离开 属于 在 系统 中 不 同 虚拟 
521] 机 的 资源 。 因 此 ， 虚 拟 机 本 身 也 作为 一 个 capsule 可 以 被 移植 到 其 他 系统 上 ， 如 图 10-7b 所 示 。 





a) 传统 上 ， 移植 涉 及 机 器 间 的 数据 传递 ， 每 个 机 器 有 它 
自己 的 硬件 、 操 作 系 统 和 附加 的 应 用 





”虚拟 机 虚拟 机 
pis te agama | 
perenn 虚拟 机 移 村 客户 应 用 程序 
po Rae aa n iA Ee | IRE oe TS Th 
客户 操作 系统 | 客户 操作 系统 
虚拟 机 监视 器 1 虚拟 机 监视 器 2 
硬件 2 


b) 利用 虚拟 机 实现 从 一 台 机 器 到 另 一 台 的 可 靠 的 用 户 环境 复制 。 专 拟 机 状态 ， 包 
括 应 用 的 状态 和 操作 系统 的 状态 都 要 打包 并 移植 。 应 用 的 数据 也 要 被 移植 ， 如 
果 它 没有 被 定位 到 目标 机 上 的 可 访问 的 文件 系统 


图 10-7 使 用 虚拟 机 进行 环境 移植 


由 虚拟 机 监视 器 为 用 户 保存 的 关于 虚拟 机 的 信息 被 限定 为 虚拟 机 的 配置 、 指 向 链接 ， 诸 如 

内 存 等 虚拟 资源 到 真实 系统 资源 的 表 的 指针 。 另 一 方面 ，capsule 不 包括 任何 虚拟 资源 映射 的 信 

息 。capsule 必须 捕捉 所 有 资源 的 状态 ， 包 括 磁盘 和 内 存 。capsule 包含 的 信息 可 能 达到 许多 GB, 
522) 在 通常 连接 家 庭 计算 机 和 外 部 世界 的 这 种 网 络 上 传输 需要 耗费 好 几 个 小 时 。 

对 正在 运行 的 机 器 进行 封装 类 似 于 检查 点 技术 ， 它 让 机 器 在 一 段 不 确定 的 较 长 的 时 间 里 挂 

起 ， 然 后 准确 地 从 挂 起 点 恢复 。capsule 是 一 个 与 主机 无 关 (host-independent) 的 检查 点 ， 可 以 
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从 一 台 机 器 传递 到 另 一 台 ; 执行 过 程 可 以 在 一 台 机 器 上 被 挂 起 ， 然 后 在 男 一 台 机 器 上 准确 的 从 
同一 点 恢复 执行 。 如 果 虚 拟 机 体系 结构 与 真实 机 器 体系 结构 相同 ， 则 执行 过 程 就 可 以 在 真实 机 
器 而 不 是 另 一 个 虚拟 机 上 被 恢复 。 

需要 注意 的 是 ， 运 行 在 集中 式 大 型 机 上 的 系统 虚拟 机 ， 如 IBM xVM， 也 允许 用 户 在 不 同位 
置 之 间 移动 时 看 到 同样 的 环境 。 不 过 ， 在 这 种 情况 下 ， 数 据 和 处 理 程序 都 驻 留 在 远程 机 器 上 ， 即 
使 在 执行 期 间 也 如 此 。 大 量 需 要 传递 到 远程 终端 上 的 状态 信息 都 可 以 忽略 ， 并 且 为 使 新 的 终端 
了 解 环境 所 做 的 环境 更 新 开销 也 很 小 。 难 点 是 我 们 这 儿 要 提 到 的 一 一 在 不 同 数据 之 间 移 植 环境 
并 简化 计算 。 

研究 出 一 个 实用 的 解决 方法 会 涉及 下 面 列 出 的 一 些 问题 。 

。 计算 机 的 完整 状态 太 大 (可 能 占用 数 十 GB 或 更 多 的 磁盘 空间 ) 以 至 于 迁移 这 些 状 态 花 
费时 间 太 多 ， 不 能 被 接受 。 注 意 一 般 开 始 时 不 需要 把 一 台 机 器 的 全 部 状态 都 迁移 到 另 一 
台 机 器 上 ， 常 常 首先 迁移 一 小 部 分 状态 就 足够 了 ， 然 后 可 以 根据 需要 迁移 其 他 更 多 的 状 
态 信息 。 我 们 在 后 面 会 看 到 ， 利 用 在 第 二 台 计 算 机 上 已 有 的 信息 ， 如 操作 系统 本 身 的 部 
分 ， 也 是 可 行 的 。 
确定 了 需要 迁移 的 部 分 机 器 状态 后 ， 封 装 和 安全 地 传输 这 些 信 息 也 是 一 个 问题 。 必 须 用 
压缩 和 加 密 技术 来 减少 传输 的 数据 量 和 实现 安全 传输 。 

如 果 两 台 计算 机 的 硬件 完全 相同 ， 且 它们 上 面 运行 的 虚拟 机 监视 器 也 相同 ， 则 两 台 机 器 
之 间 的 环境 传输 过 程 会 是 无 锋 的 。 通 常 当 两 台 机 器 的 处 理 器 相同 时 ， 它 们 的 内 存 或 IO 
的 配置 可 能 不 同 。 例 如 ， 一 台 机 器 可 能 通过 以 太 网 适配器 与 外 部 网 络 连 接 ， 而 另 一 台 机 
器 却 是 无 线 连接 。 在 8. 4 节 我 们 已 经 看 到 在 本 地 的 (native) ME (hosted) 的 虚拟 机 
上 如 何 处 理 这 种 情形 。 

最 后 ， 不 同位 置 的 系统 性 能 都 是 由 用 户 虚 拟 机 的 ISA 和 每 个 主机 的 ISA 决定 的 。 当 客户 
的 ISA 与 主机 的 ISA 不 同 ， 需 要 由 虚拟 机 监视 器 将 一 个 ISA 翻译 到 另 一 个 。 我 们 已 经 介 
绍 了 很 多 有 助 于 这 些 翻 译 的 二 进 制 翻译 和 优化 技术 。 

在 下 面 的 两 小 节 ， 我 们 测试 两 个 实现 环境 移植 概念 的 系统 的 基本 功能 。 


10.2.2 利用 分 布 式 文件 系统 : 互联 网 络 挂 起 /恢复 模式 


Kozuch 和 Satyanarayanan (2002〉 提 出 将 虚拟 机 应 用 到 在 计算 机 之 间 移 植 用 户 环 境 状态 的 技 
术 ， 他 们 称 之 为 互联 网 络 挂 起 /恢复 (Intemet Suspend/Resume, ISR)。 这 个 名 字 试 图 说 明 系 统 本 
质 上 人 允许 用 户 在 一 台 机 器 上 挂 起 操作 ， 移 动 到 另 一 台 机 器 上 ， 通 过 Internet 将 第 一 台 机 器 的 状态 
移植 到 第 二 台 机 器 上 ， 然 后 在 第 二 台 机 器 上 恢复 执行 过 程 (如 图 10-8 所 示 )。 作 者 使 用 第 8 章 介 
绍 的 VMware GSX 服务 器 来 进行 试验 。ISR 封装 虚拟 机 状态 ， 包 括 虚拟 存储 和 磁盘 的 内 容 ; 虚拟 
机 监视 器 将 状态 保存 成 一 个 文件 ， 并 保存 在 目标 计算 机 也 可 以 访问 的 分 布 式 文 件 系统 中 。 

在 不 同位 置 间 移 植 状 态 的 一 个 为 时 已 久 的 问题 是 需要 改变 P 地 址 以 访问 网 络 和 所 有 对 现 有 
环境 中 这 个 地 址 的 引用 。MobileIP 技术 (Perkins 1998) 为 mernet 上 的 移动 用 户 解决 了 这 个 问题 。 
ISR 模式 的 创造 者 提出 只 要 用 户 操 作 系统 是 配置 成 使 用 这 种 移动 技术 ， 移 植 就 可 以 完全 透明 。 

在 新 机 器 上 恢复 环境 的 最 简单 的 方法 是 让 这 台 机 器 访问 保存 在 分 布 式 文件 系统 中 的 状态 ， 
并 加 载 这 些 状态 作为 新 的 虚拟 机 的 状态 。 如 果 目 标 机 器 的 系统 配置 和 虚拟 机 监视 器 与 原来 的 机 
器 相同 ,文件 加 载 就 是 简单 地 在 目标 机 器 的 虚拟 机 监视 器 上 加 载 表 和 数据 结构 。 为 了 适应 不 同 
的 分 布 式 文件 系统 定义 ，Kozuch 和 Satyanarayanan 提出 将 状态 文件 输出 到 一 个 抽象 的 文件 系统 接 
口上 ， 并 将 与 机 器 相关 的 特性 编码 成 一 个 很 小 的 代码 块 加 入 到 文件 中 。 
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用 户 关闭 膝 用 户 移 动 到 用 户 开启 膝 
上 型 计算 机 另 一 个 位 置 上 型 计算 机 
时 间 
膝 上 型 计算 机 挂 起 操作 膝 上 型 计算 机 
从 它 离 开 的 位 
置 恢复 操作 
a) 用 户 使 用 膝 上 型 计算 机 从 一 个 位 置 移动 到 另 一 个 
用 户 登 录 机 器 2 
用 户 挂 起 机 器 用 户 移动 到 VMM 开始 通过 网 络 
1 上 的 操作 另 一 个 位 置 加 载 用 户 虚 拟 机 状态 
| | | 时 间 
虚拟 机 状态 ,保存 成 在 机 器 2 上 加 载 足够 
可 以 网 络 访问 的 文件 用 户 恢复 的 状态 


b) 如 何 通过 虚拟 机 移植 得 到 同样 效果 。 用 户 环境 状态 保存 
在 分 布 式 文件 系统 中 ， 可 以 被 目标 位 置 的 计算 机 访问 


图 10-8 互联 网 络 Suspend/Resume 


在 目标 机 器 上 加 载 整个 状态 需要 耗费 相当 长 时 间 。 为 了 提高 移植 对 用 户 的 响应 度 ， 作 者 提 
出 将 状态 信息 组 织 成 多 个 模块 ， 可 以 逐渐 递增 地 加 载 ， 这 样 只 要 必须 的 元 素 被 加 载 了 就 可 以 在 
新 的 虚拟 机 上 恢复 环境 ， 而 无 需 等 待 所 有 状态 都 加 载 完 。 

ISR 模式 使 用 “pull” 模 型 ， 目 标 计算 机 只 在 需要 时 读 环境 状态 文件 ， 例 如 用 户 在 目标 机 器 
上 登录 时 。 这 导致 从 用 户 登 录 到 目标 机 器 到 获得 足够 的 状态 信息 以 恢复 工作 环境 之 间 有 较 大 的 
延迟 。 作 者 提出 系统 可 以 记 住 用 户 使 用 模式 来 掩盖 恢复 的 延迟 ， 可 以 通过 在 用 户 请 求 前 预先 复 
制 状 态 到 本 地 机 器 上 。 例 如 ， 系 统 可 以 记 住 特定 用 户 在 家 和 工作 场所 之 间 移 动 时 的 工作 模式 ， 在 
用 户 到 达 目 标 机 器 前 ， 就 可 以 在 目标 机 器 上 得 到 部 分 系统 状态 。 

虚拟 机 状态 信息 数量 相当 大 ， 复制 状 态 ， 对 其 压缩 、 传 输 、 解 压缩 ， 直 到 在 另 一 台 机 器 上 加 
载 这 些 状 态 都 是 很 消耗 时 间 和 带宽 的 。 为 此 ， 需 要 一 些 技术 来 限制 一 次 传输 中 传递 的 信息 数量 ， 
而 不 影响 将 完整 的 状态 信息 从 一 台 机 器 传输 到 另 一 台 。 例 如 ， 当 用 户 频繁 地 在 两 个 位 置 之 间 移 
动 , 一 个 位 置 的 工作 环境 挂 起 时 不 需要 删除 这 个 位 置 所 有 的 环境 。 这 可 以 通过 一 些 结 构 来 保存 
信息 ， 当 工作 环境 稍 后 在 这 个 位 置 恢复 时 就 可 以 只 加 载 在 这 期 间 改变 的 状态 。 另 一 个 可 能 的 方 
法 是 使 用 这 个 系统 中 其 他 用 户 的 部 分 工作 环境 ， 这 些 可 用 的 环境 包括 与 操作 系统 关联 的 文件 ， 
只 有 很 少 的 是 用 户 特有 的 。 

这 种 模式 最 终 是 否 采用 取决 于 移植 系统 对 安全 性 的 保障 。 用 户 不 希望 他 们 的 虚拟 机 上 的 任 
何 信息 能 被 其 他 用 户 甚至 其 他 的 VMM 访问 。Kozuch 和 Satyanarayanan 提出 存储 在 分 布 式 文件 系 
统 中 的 状态 保存 成 加 密 的 格式 。 他 们 还 提出 用 户 在 使 用 一 台 主 机 前 首先 要 得 到 认证 。 


10.2.3 Stanford Collective 的 状态 封装 


Stanford Collective 项 目 (Sapuntzakis 等 ，2002) 采用 一 种 概念 上 类 似 的 方法 进行 环境 移植 。 
+j Internet Suspend/Resume 的 根本 差别 在 于 保存 用 户 虚拟 机 所 有 状态 的 capsule 被 传送 到 用 户 目标 
机 器 上 而 不 是 目标 机 器 可 访问 的 分 布 式 文件 系统 。 这 种 “push” 模 式 的 一 个 优点 是 通过 适当 地 
规划 移植 行为 ， 用 户 可 以 立即 访问 他 /她 在 目标 机 器 上 的 环境 。 

Collective 系统 的 虚拟 机 是 在 VMware GSX 服务 器 (VMware) 上 运行 Intel IA-32 平台 ，GSX 服 
务 器 的 基本 操作 在 第 8 章 中 描述 。 如 在 第 8 章 中 提 到 的 ，GSX 服务 器 是 一 个 宿主 虚拟 机 系统 ， 宿 
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主 的 操作 系统 是 Linux BR Microsoft Windows。 在 这 种 虚拟 机 系统 上 ，VMM 都 可 以 充分 利用 主机 操 
作 系 统 已 有 的 各 种 IO 适配器 和 设备 的 设备 驱动 。 

Stanford Collective 开发 者 们 注意 到 因为 便携 性 的 需求 ， 在 支持 特定 的 IO 设备 ， 如 网 络 适 配器 
方面 ， 还 有 些 挑战 。 如 果 虚 拟 机 使 用 虚拟 网 卡 与 Intermet 连接 ， 封 装 就 需要 包括 下 地址， 这 个 人 地 
址 在 与 产生 capsule 的 物理 计算 机 不 同 的 计算 机 上 可 能 无 法 工作 。Collective 系统 增强 虚拟 机 监视 器 ， 
使 它 能 利用 隧道 效应 通过 虚拟 私人 网 络 (VPN) 处 理 从 原来 网 络 发 出 或 发 送 到 原来 网 络 的 数据 包 。 

Collective 系统 开发 者 们 对 系统 作 了 额外 的 调整 使 它 可 以 挂 起 虚拟 机 ， 然 后 通过 标准 的 384 
kbps 的 DSL 线路 在 大 约 20 分 钟 内 〈 设 定 的 一 段 典 型 的 交换 时 间 ) 传送 到 目标 机 器 上 。 该 系统 试 
图 忽略 客户 操作 系统 的 细节 ， 因 此 在 这 个 系统 上 使 用 的 许多 技术 比 在 前 面 描述 的 ISR 系统 更 通 
用 ， 下 面 介绍 这 些 技术 。 

在 移植 前 约 简 存 储 状态 

今天 的 大 多 数 物 理 机 器 包含 数 百 MB 的 内 存 ， 而 且 虚 拟 机 也 可 有 类 似 大 小 的 主 存 。 但 是 在 任 
意 给 定时 刻 ， 影 响 性 能 的 关键 主 存储 器 相对 较 小 ， 大 部 分 主 存储 器 可 以 被 换 页 到 磁盘 ， 而 对 系统 
的 响应 时 间 没 有 很 大 影响 。 但 不 幸 的 是 ， 在 挂 起 时 不 人 侵 客户 操作 系统 ， 就 无 法 确定 哪些 页 属于 
/不 属于 当前 的 工作 集 。Collective 系统 通过 在 虚拟 机 上 启动 一 个 需要 很 多 页 的 balloon 程序 来 解决 
这 个 问题 。 这 个 程序 让 客户 操作 系统 释放 出 系统 中 其 他 活动 进程 的 页 一 一 期 望 不 需要 立即 响应 
在 目标 机 器 上 的 恢复 的 当前 不 活动 进程 释放 出 这 些 页 。 现 在 通过 对 balloon 程序 需要 的 页 填 零 来 
减 小 存储 状态 的 大 小 ， 因 此 更 有 效 地 紧 压 capsule。 

有 一 些 与 ballooning 相关 的 细微 策略 问题 。 越 多 的 页 通过 balloon 程序 恢复 就 可 以 获得 更 高 的 存 
储 状态 传送 效率 ， 但 在 恢复 期 间 系 统 响 应 变 得 迟缓 ， 除 非 属 于 活动 进程 的 页 仍然 保留 在 存储 器 中 。 
保存 高 速 缓存 的 数据 的 页 和 脏 缓 冲 区 部 分 没有 改变 。 另 一 方面 ， 活 动 的 页 很 容易 压缩 ， 不 需要 在 
balloon 程序 中 释放 ， 将 它们 填 零 得 到 的 压缩 好 处 很 小 ， 在 恢复 期 间 人 恢复 它们 可 能 有 更 大 的 开销 。 

注意 balloon 程序 是 在 虚拟 机 环境 下 运行 的 一 个 进程 ， 它 是 由 VMM 在 收 到 挂 起 请 求 时 触发 的 。 
这 个 程序 在 客户 操作 系统 上 运行 的 事实 允许 其 可 以 根据 操作 系统 的 特性 专门 化 。 操 作 系统 ， 如 Mi- 
crosoft Windows ， 限 制 每 个 进程 最 大 工作 集 的 大 小 一 一 balloon 程序 不 能 恢复 其 使 用 的 超过 指定 最 大 
页 数 的 页 。 另 一 方面 ，Linux 不 限定 进程 的 工作 集 大 小 一 一 Collective 系统 监视 交换 空间 ，balloon 程 
序 持续 分 配 到 新 的 页 并 对 它们 填 零 ， 直 到 空闲 的 交换 空间 小 于 预先 设 定 的 最 大 值 。 

减 小 传送 信息 包 的 大 小 

刚刚 提 到 的 Balloon- 程 序 方法 只 对 降低 传送 capsule 信息 所 需要 的 带宽 有 很 大 帮助 。 但 是 ， 随 
着 超大 磁盘 越 来 越 常 见 ， 磁 盘 表 示 的 状态 也 相当 丰富 。 此 外 ， 磁盘 还 以 压缩 文件 形式 保存 了 许多 
类 型 的 数据 ， 例 如 图 像 和 视频 ， 对 它们 再 压缩 没有 效 。 另 一 方面 ， 典 型 用 户 移植 涉及 少数 平台 ， 
所 需 磁盘 映像 与 上 一 次 访问 后 留 在 平台 上 的 映像 常常 没有 很 大 的 改变 。Collective 利用 这 点 ， 只 
维护 capsule 之 间 的 区 别 而 不 是 capsule 的 整个 磁盘 映像 ， 这 样 可 以 节省 很 多 时 间 和 资源 。 

来 自 Sapuntzakis A (2002) 的 图 10.9 显示 了 一 个 capsule 层次 的 实例 ， 每 个 节点 表示 一 个 
capsule 状态 。 一 个 节点 的 磁盘 状态 全 体 只 保存 在 与 根 节 点 相应 的 capsule 中 。 每 个 节点 继承 其 父 
节点 的 基本 磁盘 映像 ， 在 父 节 点 状态 上 递增 的 状态 被 存储 在 孩子 节点 中 。 任 意 节点 的 磁盘 状态 
可 以 从 根 节点 到 各 节点 的 路 径 上 的 各 节点 中 保存 的 磁盘 信息 派生 出 来 。 

每 个 递增 的 磁盘 利用 写 复制 技术 。 在 这 里 这 个 思想 是 在 任何 需要 复制 一 个 磁盘 的 时 候 ， 都 
不 复制 整个 磁盘 内 容 。 相 对 应 的 ， 磁 盘 映 像 由 一 组 指向 磁盘 不 同 段 的 唯一 复 本 的 指针 组 成 。 与 每 
个 段 相关 的 是 用 来 计数 指向 这 个 段 的 指针 的 引用 计数 器 。 如 果 有 修改 而 且 要 写 人 一 个 段 ， 检 查 
引用 计数 器 。 如 果 计 数 器 值 为 1， 则 可 以 写 人 这 个 段 的 原始 复 本 ， 如 果 不 是 1， 就 复制 这 个 段 ， 
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然后 创建 一 个 指针 指向 这 个 新 的 复 本 ， 再 将 引用 计数 器 的 值 加 1。 现 在 可 以 修改 这 个 新 的 复 本 而 
不 会 影响 以 前 的 版 本 。 写 复制 多 许 很 多 不 同 版 本 共享 真实 数据 的 一 个 复 本 ， 这 在 这 些 版 本 基本 


相同 只 有 很 小 部 分 有 差异 时 特别 有 效 。 











部 门 capsule 


capsule 
学 生 4 capsule 


图 10-9 一 个 大 学 的 capsule 层次 的 例子 。 根 capsule 包含 所 有 学 生 所 需 的 所 有 软件 。 每 个 部 门 配给 它 
的 capsule 以 适合 它 的 需要 。 部 门 管理 从 父 capsule 派生 出 子 capsule。 如 文中 提 到 的 ， 只 有 对 
大 学 capsule 的 修改 会 记录 在 每 个 部 门 capsule 中 。 学 生 capsule 从 部 门 capsule 中 派生 出 来 ， 
也 许 对 部 门 的 每 个 课程 有 一 个 capsule。 作 为 选择 的 ， 如 前 面 描述 的 Student] ， 学 生 可 以 派生 
出 他 们 私有 的 capsule。 叶 节点 ， 如 学 生 1 工作 capsule， 是 学 生 从 一 个 地 方 移动 到 另 一 个 地 方 
时 所 要 迁移 的 


磁盘 映像 改变 之 前 ， 从 根 节 点 到 与 该 映像 相应 的 叶 节 点 路 径 上 的 所 有 节点 都 要 转移 。 修 改 
只 能 发 生 在 层次 结构 的 叶 节点 上 ， 例 如 图 10-9 中 ， 如 果 学 生 4 想 在 从 根 到 叶 节 点 路 径 中 的 节点 
上 还 没有 相应 信息 的 位 置 修改 他 /她 的 磁盘 ， 引 进 这 个 信息 ， 则 学 生 4 会 作为 父 节点 创建 一 个 新 
的 子 节点 ， 修 改 只 会 严格 地 发 生 在 这 个 节点 的 递增 磁盘 上 。 如 果 学 生 迁 移 到 另 一 台 计算 机 上 ， 当 
前 的 递增 磁盘 映像 也 会 转移 到 新 的 计算 机 上 与 其 他 节点 对 应 的 映像 本 质 上 是 只 读 的 ， 所 以 不 需 
从 被 挂 起 的 计算 机 上 删除 。 当 学 生 在 计算 机 之 间 移 动 ， 层 次 结构 上 的 不 同 节点 都 在 后 台 保 留 ， 这 
增加 了 查找 的 需 节 点 复 本 的 概率 ， 降 低 了 用 户 在 不 同位 置 移动 。 

降低 恢复 的 启动 时 间 

TRA, WR capsule 磁盘 中 的 信息 是 在 需要 时 被 提取 的 而 不 是 完全 预 取 的 ， 可 以 节省 
很 多 时 间 ， 因 为 用 户 在 一 个 会 话 中 所 需要 的 工作 集 一 般 都 很 小 。 在 Collective 系统 中 是 按 如 下 方 
法 实现 的 。 所 有 到 磁盘 的 访问 由 VMM 截获 ， 然 后 发 送 到 磁盘 服务 器 。 磁 盘 服务 器 将 请 求 转换 为 
对 层次 结构 中 一 个 节点 的 访问 。 如 果 是 写 请 求 ， 则 如 前 面 提 到 的 必须 是 访问 叶 节 点 。 访 问 驻 留 在 
中 间 节 点 上 的 信息 可 能 需要 远程 访问 拥有 该 信息 的 节点 。 在 这 种 访问 中 ， 会 从 远程 递增 磁盘 映 
像 复 制 新 需 块 在 本 地 的 影子 复 本 ， 因 此 所 需 的 远程 磁盘 上 块 在 本 地 系统 中 根据 需要 逐渐 增加 。 
注意 ， 节 点 上 的 磁盘 块 可 以 被 从 这 个 节点 派生 出 的 多 个 capsule 共享 。 例 如 在 图 10-9 中 ， 如 果 部 
门 复 本 上 的 一 些 块 在 需要 时 引入 ， 当 其 他 学 生 要 访问 相同 块 时 就 不 需 再 次 引 人 。 

发 据 磁 盘 块 中 的 元 余 降 低 传输 时 间 和 和 带宽 

不 同 的 磁盘 块 相同 并 不 罕见 ， 因 为 多 数 操作 系统 的 活动 特性 倾向 于 提高 不 同 数据 块 之 间 的 
相似 性 。 下 面 是 当 一 个 需要 的 块 已 经 在 系统 中 可 以 获得 的 情况 。 

。 当 用 户 在 两 个 系统 之 间 来 回 移 动 时 ， 留 下 少许 磁盘 块 ， 下 次 访问 这 个 系统 时 可 以 重复 
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利用 。 
。 程序 文件 块 常常 驻 留 在 内 存 中 。 大 多 数 程序 不 会 修改 他 们 自己 的 代码 ， 因 此 通常 可 以 直 
接 从 内 存 中 复制 这 些 磁盘 块 。 
e 机 器 的 内 存 常 包含 的 是 磁盘 块 ， 例 如 磁盘 高 速 缓存 的 部 分 块 ， 而 不 是 程序 文件 。 
。 通常 ， 不同 用 户 (因此 有 不 同 capsule) 使 用 相同 的 程序 或 数据 文件 。 如 果 一 个 块 的 复 本 
已 经 在 其 他 用 户 的 capsule 中 ， 而 且 可 以 使 用 ， 就 不 需要 再 向 远 端 地 点 传递 一 个 复 本 。 
Collective 系统 使 用 散 列 备份 (hashed copy) 机 制 ， 磁 盘 上 的 每 块 有 一 个 相应 的 hash 值 ， 用 来 
唯一 识别 块 内 容 。Collective 中 使 用 的 hash 机 制 是 强大 的 加 密 hash，SHA-1， 这 种 冲突 发 生 的 概率 很 
低 (NIST 2002), Collective 传递 计算 出 来 的 数据 块 的 hash 值 ， 而 没有 在 计算 机 之 间 传 递 真实 的 数 
据 。 当 一 台 计 算 机 需要 一 块 磁盘 数据 时 ， 它 检测 在 本 地 这 块 数据 的 hash 值 是 否 可 用 ， 然 后 直接 使 用 
这 块 数据 或 如 果 要 在 这 块 数据 写 人 就 生成 一 个 写 复 制 (copy-on-write)。 这 避免 从 远程 位 置 传送 块 。 
如 果 这 块 在 本 地 不 可 用 ， 计 算 机 广播 请 求 副本 的 消息 ， 系 统 中 的 其 他 供应 者 接受 这 个 消息 ， 检 测 已 
经 可 用 块 的 hash 表 然 后 满足 请 求 。 作 者 声称 这 种 机 制 是 可 靠 的 ， 因 为 冲 罕 的 概率 很 低 ， 也 就 是 不 同 
数据 拥有 相同 hash 值 的 概率 要 低 于 请 求 者 因为 TCP 连接 错误 或 存储 器 中 的 错误 而 接收 到 错误 块 的 
概率 。 这 种 机 制 也 是 安全 的 ， 因 为 SHA-1 使 之 实际 上 不 可 能 伪造 出 拥有 特定 hash 值 的 数据 块 。 
使 用 Collective 系统 的 实验 结果 (Sapuntzakis 等 人 ，2002) (31H 10-10) 显示 这 些 优化 显著 
地 降低 了 通信 量 ， 因 此 降低 了 通过 典型 的 DSL 网 络 从 一 台 机 器 上 迁移 用 户 环境 所 需要 的 时 间 。 
作者 使 用 Business Winstone 2001 benchmark 的 快照 模拟 了 在 家 和 工作 之 间 迁 移 工作 环境 。 并 使 用 
前 面 提 到 的 各 种 不 同 技 术 来 降低 需要 传输 的 数据 量 ， 降 低 到 50MB 左右 ， 使 用 gip 程序 压缩 后 可 
进一步 降低 到 22MB Hashing 还 可 以 进一步 降低 传输 数据 量 。 不 必 说 ， 也 有 需要 传输 的 原始 数据 
量 超过 500MB 的 情形 ， 例 如 在 程序 开始 执行 时 。 然 而 ， 即 使 在 这 些 情况 下 ， 压 缩 可 以 两 倍 甚至 
更 多 地 降低 数据 量 ，hashing 还 可 以 提供 更 低 的 约 简 率 。 作 者 总 结实 验 得 出 ， 在 家 和 工作 之 间 的 
典型 的 变换 中 ， 可 以 传递 整个 工作 环境 。 这 使 用 户 可 以 挂 起 一 个 地 方 的 工作 然后 在 另 一 个 地 方 
恢复 ， 不 需要 关注 计算 环境 的 任何 改变 。 
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图 10-10 Collective (Sapuntzakis 等 人 ，2002) 中 使 用 的 优化 技术 的 性 能 。 实 验 中 原始 的 存储 器 大 小 是 
256MB， 运 行 Winstone benchmark 时 ， 在 开始 的 3 分 钟 后 每 分 钟 做 一 次 快照 。 每 个 快照 的 迁 
移 都 是 在 目的 端 拥有 到 上 次 快照 为 止 的 所 有 信息 的 假设 上 模拟 的 。 上 图 显示 了 hashing 机 制 
结合 用 gip 压缩 程序 降低 从 源 主机 到 目的 主机 通信 重 的 效率 
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图 10-10 (4) 


10.2.4 在 VMotion 下 迁移 虚拟 机 


Internet Suspend/Resume 机 制 和 Collective 机 制 都 是 研究 项 目 ， 并 没有 解决 通过 Intemet 移植 
虚拟 机 涉及 的 所 有 问题 。 其 间 ， 这 种 移植 的 某 些 方 面 已 经 存在 于 由 VMware 开发 中 VMotion, 

VMotion 是 VirtualCenter 基础 结构 管理 软件 的 一 部 分 ， 管 理 通过 局 域 网 互联 Intel IA-32 虚拟 
机 系统 构成 的 机 群 ， 如 图 10-11 所 示 。VirtualCenter 的 管理 功能 包括 部 署 和 监视 在 名 为 ESX 服务 
器 的 本 地 虚拟 机 系统 上 运行 的 虚拟 机 。 在 某 些 情况 下 ，VirtualCenter 需要 将 一 个 正在 运行 的 虚拟 
机 从 机 群 中 的 一 个 主机 上 移植 到 另 一 个 主机 ， 这 种 情况 的 例子 包括 : 

。 负载 平衡 ， 通 过 更 好 地 利用 资源 提高 系统 响应 时 间 

。 安全 性 ， 隔 离 被 攻击 的 虚拟 机 

。 排列 ， 将 需要 通信 的 虚拟 机 放 在 一 起 

e 容错 ， 从 失效 的 主机 移动 到 其 他 处 理 器 

。 功 耗 管理 ， 把 负载 从 过 热 的 处 理 器 上 移 开 

。 维护 ， 将 负载 从 升级 过 的 某 些 处 理 器 上 移 开 

VirtualCenter 上 虚拟 机 从 一 个 节点 移植 到 其 他 节点 是 通过 VMotion 完成 的 。 移 植 涉 及 复制 虚 
拟 机 状态 ， 包 括 处 理 器 状态 、 存 储 器 状态 、 其 他 虚拟 硬件 资源 如 BIOS. Wee. WAR RAY MAC 
地 址 的 状态 ， 以 及 芯片 组 的 状态 。 这 里 的 问题 非常 类 似 于 我 们 在 ISR 和 Collective 机 制 中 讨论 的 
问题 。 然 而 ， 作 为 产品 ，VMotion 需要 慎重 发 展 一 一 它 在 某 些 方面 的 能 力 目前 已 受到 限制 。 

© 源 和 目标 计算 机 必须 在 相同 的 服务 器 机 群 中 ， 由 相同 的 VirtualCenter 管理 器 管理 。 

。 源 和 目标 计算 机 的 文件 系统 必须 相同 ， 而 且 位 于 存储 网 络 (SAN) 的 共享 磁盘 上 ， 这 避 

免 了 Collective 中 的 移植 磁盘 引入 的 复杂 性 。 
© 运行 在 两 个 计算 机 上 的 处 理 器 体系 结构 必须 相同 ， 由 同一 个 厂家 提供 。 这 避免 潜在 的 不 
兼容 性 ， 以 防 一 个 机 器 上 的 状态 不 能 直接 加 载 到 另 一 个 机 器 上 。 

。 虚拟 机 支持 千 兆 以 太 网 适配器 。 

。 虚拟 机 不 能 运行 多 处 理 器 机 群 应 用 ; 它们 只 能 运行 单机 应 用 。 

当 接收 到 一 个 使 用 VMotion 移植 虚拟 机 的 请 求 ，VirtualCenter 上 的 软件 会 进行 如 下 操作 。 

1. 首先 要 确保 当前 主机 上 的 虚拟 机 处 于 稳定 状态 。 
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图 10-11 VMware 的 VirtualCenter 纵览 。VC 代表 VirtualCenter。 图 中 显示 的 是 三 个 节点 构成 的 机 群 ， 名 
为 hostB 和 hostC 的 节点 共享 存储 区 域 网 络 (storage-area network, SAN) 上 的 一 个 文件 系统 


2. 然后 复制 属于 这 个 虚拟 机 的 存储 器 内 容 到 目标 主机 上 。 与 客户 操作 系统 关联 的 数据 和 运 
行 在 虚拟 机 上 的 应 用 的 数据 也 要 复制 。 这 称 为 基线 复制 (baseline copy) 。 这 并 不 是 最 终 的 复制 ， 
因为 源 主机 上 的 虚拟 机 在 这 个 复制 过 程 中 继续 运行 。 

3. 挂 起 源 主 机 上 的 虚拟 机 。 然 后 VirtualCenter 复制 存储 器 最 后 的 改变 和 虚拟 机 其 他 剩 下 的 状 
态 到 目标 主机 上 。 在 这 个 阶段 传送 到 目标 主机 上 的 信息 封装 成 capsule， 包 含 了 上 一 阶段 传送 的 
信息 改变 的 部 分 ， 类 似 于 Collective 中 描述 的 步 进 capsule。 

4. 在 新 主机 上 启动 虚 氢 机 。 

几乎 可 以 肯定 的 是 ， 越 来 越 多 在 不 同 研究 项 目 中 开发 出 来 的 移植 技术 将 继续 探索 其 在 诸如 
VirtualCenter 等 系统 中 的 应 用 。 我 们 观察 到 ， 虚 拟 环境 移植 中 的 问题 以 许多 不 同 的 形态 出 现 。 我 
们 这 里 讨论 的 是 在 这 个 领域 早期 的 工作 。 随 着 研究 继续 ， 厂 家 获得 更 多 经 验 生 产 支 持 移植 的 产 
品 ， 许 多 新 的 技术 会 被 开发 出 来 。 这 个 模式 最 后 的 普及 和 成 功 实际 上 标志 着 虚拟 机 技术 尤其 是 
系统 虚拟 机 的 时 代 。 


10.3 网 格 : 虚拟 的 组 织 结构 


在 过 去 的 二 十 年 里 , 可 利用 的 计算 力量 迅速 增长 。 平版 印刷 技术 的 持续 发 展 使 硅 元 件 的 大 
小 降低 到 难以 置信 的 尺寸 ， 因 而 允许 在 手指 甲 大 小 的 芯片 上 集成 数 十 亿 的 晶体 管 。 与 之 相伴 的 
是 ， 低 成 本 地 被 普通 大 众 使 用 的 微 处 理 器 、 系 统 种 应 用 的 发 展 ， 以 及 利用 nemne 开发 出 的 容易 
使 用 (easy-to-use〉 的 程序 。 计 算 机 工业 的 经 济 使 公司 仅 需 生产 少数 类 型 的 微 处 理 器 和 少数 类 型 
的 系统 就 有 利 可 图 ， 而 不 需要 耗费 巨 资 去 开发 多 种 多 样 的 微 处 理 器 ， 并 在 不 同 地 方 加 工 制 造 这 
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些微 处 理 器 ， 也 不 需要 为 每 种 类 型 的 系统 开发 不 同 的 操作 系统 。 其 结果 是 高 性 能 通用 计算 机 广 
泛 出 现在 全 世界 数 百 万 人 的 工作 台 上 ， 或 被 数 百 万 人 携带 到 世界 各 处 。 

至 今 大 多 数 用 户 在 其 计算 机 上 执行 的 任务 只 是 使 用 了 其 中 的 一 小 部 分 计算 能 力 。 无 论 是 浏 
览 Internet 去 购物 还 是 为 历史 课程 编辑 学 术 报 告 ， 典 型 的 用 户 都 不 使 用 他 或 她 工作 的 计算 机 的 全 
部 能 力 。 直 接 影响 工作 环境 一 一 只 要 系统 开机 就 要 消耗 能 量 一 一 即使 它 并 没有 执行 什么 有 用 的 
计算 。 这 个 影响 正在 用 多 种 方式 解决 ， 特 别 是 通过 使 用 自动 能 量 管理 技术 。 然 而 ， 随 着 计算 和 存 
储 变 得 越 来 越 便 宜 ， 计 算 越 来 越 快 ， 他 们 消耗 的 能 量 更 多 了 。 因 此 ， 虽 然 有 了 完善 的 能 量 管理 技 
术 ， 全 世界 范围 内 的 计算 机 能 量 消耗 仍 在 急速 增长 。 

具有 讽刺 意义 的 是 ， 用 户 很 少 愿意 实际 的 能 耗 超过 他 们 的 系统 本 身 消耗 的 能 量 。 处 理 实时 
数据 的 科学 家 没有 对 其 收集 的 大 量 数据 进行 处 理 的 能 力 。 他 们 需要 简单 可 视 化 ， 或 是 根据 实时 
数据 作出 有 效 地 判断 的 处 理 能 力 。 他 们 执行 这 样 操 作 的 能 力 可 能 由 于 计算 能 力 的 缺乏 而 受到 限 
制 ， 但 是 也 可 能 由 于 计算 所 需要 的 复杂 软件 受到 限制 。 这 样 的 用 户 不 希望 花费 大 量 金钱 购买 提 
供 期 望 的 响应 时 间 的 系统 或 相对 较 贵 的 软件 ， 因 为 他 们 不 经 常 使 用 这 些 系统 和 软件 。 在 其 他 领 
域 也 有 类 似 的 情况 ， 例 如 运输 领域 ， 用 户 通 常 拥有 能 满足 他 大 多 数 需要 的 运输 工具 ， 但 并 不 能 满 
足 他 所 有 的 需求 ; 针对 其 偶然 的 需要 ， 用 户 或 租用 合适 的 运输 工具 ， 或 从 熟人 那里 借用 ， 或 利用 
公用 运输 公司 提供 的 服务 。 

将 运输 工具 租借 模型 应 用 到 计算 机 领域 也 是 有 所 可 为 的 。 事 实 上， 在 个 人 计算 机 使 用 初期 ， 
计算 机 租借 并 不 罕见 。 然 而 ， 随 着 配置 软件 复杂 度 的 提高 和 硬件 成 本 的 降低 ， 短 期 租借 计算 机 乏 
步 被 放弃 。 

随 着 普遍 连通 性 和 Internet 的 出 现 ， 租 借 不 再 是 提高 计算 机 能 力 利用 率 的 合适 模型 。 取 而 代 
之 ,公用 程序 开始 被 认为 是 更 合适 的 模型 。 胜 于 为 执行 偶然 的 任务 需要 拥有 或 租用 物理 资源 ， 未 
来 新 兴 模 型 让 用 户 在 通信 网 络 中 搜索 这 些 资源 ， 然 后 在 远程 运行 他 们 的 任务 。Foster 和 Kesselman 
(1998) 提出 的 计算 世界 类 似 于 1910 年 提出 的 电 的 世界 ， 当 时 本 地 生产 者 都 是 标准 的 。 随 着 时 间 
的 推移 ， 电 力 系 统 发 展 出 能 量 网 格 ， 电 力 提供 者 汇聚 他 们 的 资源 以 提供 给 很 多 消费 者 。 电 力 使 用 
系统 的 设计 允许 可 以 在 特定 时 间 使 用 尽 可 能 多 或 尽 可 能 少 的 能 源 ， 然 后 根据 消费 的 量 来 付款 。 
将 这 种 模型 应 用 到 计算 世界 ， 人 允许 用 户 为 他 的 任务 得 到 他 或 她 所 需要 的 计算 能 力 和 可 接受 的 响 
应 时 间 ， 而 不 需要 拥有 需要 的 全 部 资源 。 

计算 的 共用 模式 已 经 被 高 端 科学 计算 群体 的 需求 驱动 。 存 在 于 理解 支配 自然 的 基本 力量 、 
为 普通 的 疾病 开发 新 药 、 预 测 天 气 中 的 间 题 的 一 个 共同 特征 是 一 一 它们 都 依赖 于 进行 包含 大 量 
计算 的 大 型 模拟 。 物 理 社团 长 期 采用 大 规模 的 全 球 协作 (“big science”) 在 较 小 的 、 作 用 较 不 明 
显 的 项 目 之 间 分 割 可 用 的 资金 。 这 个 社团 率先 采用 这 种 协作 计算 模型 ， 以 网 格 计算 的 名 字 来 提 
倡 这 种 公用 模型 。 正 如 “big science” 把 很 多 单个 的 项 目 和 实验 室 转变 成 一 个 大 的 实验 室 来 解决 
一 个 又 一 个 重要 难题 ， 网 格 计算 将 很 多 大 大 小 小 的 计算 机 结合 在 一 个 异 构 的 网 格 下 ， 是 为 了 把 
每 台 计算 机 上 的 空闲 计算 能 力 提 供给 别人 使 用 ， 同 时 允许 更 大 的 用 户 组 通过 公用 的 方式 共享 各 
种 专用 的 、 昂 贵 计 算 资 源 ， 例 如 超级 计算 机 。 

大 约 十 年 前 ， 环 球 网 (World Wide Web) 由 科学 计算 社团 开发 出 来 ， 在 科学 家 之 间 提 供 更 有 
效 的 协作 ， 共 享 数据 和 实验 结果 。 稍 后 ， 同 样 的 模型 被 证 明 在 商业 世界 和 其 他 外 行 也 是 有 用 的 。 
发 源 于 科学 社团 的 计算 网 格 的 模型 也 将 类 似 地 证 明 在 巨大 的 计算 能 力 已 经 或 将 要 可 用 下 对 更 广 
泛 的 用 户 有 效 。 

网 格 计 算是 一 种 虚拟 化 形式 。 它 的 行为 类 似 一 个 系统 虚拟 机 ， 自 动 引 导 用 户 应 用 到 有 可 用 
资源 且 匹 配 应 用 需求 的 机 器 上 。 把 系统 虚拟 机 概念 应 用 到 更 高 层次 ， 网 格 计 算 生 成 一 个 虚拟 组 
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织 结 构 ， 人 允许 在 完全 不 同 的 地 理 分 散 的 系统 之 间 共 享 系 统 资源 (图 10-12) 。 网 格 计算 因此 把 虚 
拟 机 的 概念 从 指令 级 的 动态 优化 器 通过 进程 级 和 系统 级 虚拟 机 到 达 我 们 称 为 组 织 结 构 级 的 虚拟 
机 。 不 同 于 本 书 中 讨论 的 其 他 类 型 虚拟 机 ， 被 虚拟 化 的 真实 机 器 没有 一 个 定义 完好 的 ， 形 式 的 体 
系 结构 ， 相 反 的 ， 它 的 体系 结构 表现 为 管理 协作 者 之 间 关 系 的 程序 和 协议 。 许 多 这 样 的 程序 和 协 
议 常 常 只 不 过 是 人 类 口头 上 的 理解 。 使 用 计算 机 系统 联盟 进行 的 虚拟 组 织 结构 的 生成 过 程 很 有 
希望 提供 促进 理解 ， 并 以 正式 的 书面 形式 定义 相互 关系 接口 。 

ILEAN A Q 的 参与 者 ， 不 
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使 用 数据 D ath 
图 10-12 网 格 作为 组 织 结构 的 集合 ,不论 是 真实 的 还 是 虚拟 的 《Foster，2001) ， 图 中 有 三 个 真实 的 
组 织 (ovals) 和 两 个 虚拟 组 织 。 虚 氢 组 织 了 是 带 分 布 式 资源 的 协作 况且 ， 如 图 中 的 深 灰 色 
阴影 部 分 。 虚 拟 组 织 Q 是 挖 气 网 格 中 闲置 资源 ， 以 执行 光线 跟踪 。 引 号 中 给 出 了 访问 控制 
资源 的 策略 
这 些 接口 的 发 展会 推动 新 的 服务 的 发 展 ， 人 允许 网 格 概念 被 更 广泛 的 社团 采用 。 因 此 ， 胜 于 试 
图 用 虚拟 组 织 结构 再 建 真实 组 织 结构 的 功能 ， 虚 拟 组 织 结 构 更 可 以 创造 以 前 不 存在 的 功能 。 如 
我 们 在 整 本 书 都 可 以 看 到 的 实现 新 功能 是 所 有 虚拟 机 的 特性 。 


10.3.1 理想 网 格 的 特性 


这 节 我 们 试图 描述 网 格 的 显著 特性 。 这 些 特性 包括 现在 的 网 格 上 已 有 的 特性 和 希望 未 来 网 
格 计算 成 为 共用 所 必需 的 特性 。 这 里 的 讨论 是 对 在 Foster 和 Kesselman (1998) 和 Foster, Kessel- 
man, Tuecke (2001) 中 描述 的 计算 网 格 讨论 的 调整 。 前 面 的 作者 描述 计算 网 格 是 一 个 软件 和 硬 
件 基本 结构 ， 提 供 对 高 端 计算 能 力 可 靠 的 、 一 臻 的、 便宜 的 、 普 遍 的 访问 。 在 他 们 后 来 的 文章 
中 ，Foster 和 他 的 同事 扩展 这 种 定义 ， 提 出 网 格 是 一 个 可 以 在 有 个 人 、 机 构 和 资源 组 成 的 动态 集 
合 之 间 提 供 灵 活 、 安 全 和 协调 的 资源 共享 的 基础 结构 。 后 面 的 特性 使 他 们 指出 网 格 是 一 个 虚拟 
组 织 结构 。 现 在 我 们 具体 考察 网 格 的 这 些 特性 。 

基础 结构 

计算 网 格 是 提供 资源 共享 的 基本 的 软 硬 件 基础 结构 。 硬 件 基础 结构 组 件 包括 计算 资源 、 存 
储 资源 、 传 感 器 和 设备 。 软 件 基础 结构 组 件 包括 监视 资源 使 用 的 程序 、 为 请 求 者 调度 资源 的 程 
序 、 控 制 资 源 启动 和 关闭 的 程序 。 
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网 格 上 的 计算 资源 可 能 是 工作 站 、 大 型 主机 、 超 级 计算 机 ， 或 者 任何 可 能 类 型 的 计算 机 。 共 
享 的 存储 资源 可 能 是 个 人 工作 站 的 磁盘 一 部 分 ， 或 文件 系统 的 一 部 分 ， 或 整个 网 络 附加 的 存储 。 
网 格 的 一 个 重要 特性 是 组 成 网 格 的 系统 不 必 是 类 构 的 可 以 有 各 种 不 同 的 处 理 器 和 操作 系统 
运行 在 网 格 中 。 

服务 可 靠 性 

除了 它 的 共用 性 ， 网 格 另 一 个 期 望 得 到 的 特性 是 稳定 性 。 真 实 网 格 的 共用 性 体现 在 网 格 中 
的 所 有 用 户 或 者 对 资源 有 平等 的 访问 权利 ， 或 者 保障 得 到 有 服务 提供 者 按照 契约 提供 的 优质 服 
务 。 这 与 现存 的 网 格 形成 了 鲜明 对 比 ， 现 存 网 格 由 志愿 的 个 人 或 协作 团体 提供 松散 的 资源 集合 
构成 ， 这 些 志愿 者 并 不 明确 了 解 他 们 能 提供 什么 服务 或 他 们 期 望 得 到 什么 服务 。 网 格 参 与 者 自 
愿 地 提供 工作 站 上 的 空闲 时 钟 ， 目 前 他 们 没有 任何 提供 可 靠 时 钟 的 义务 。 作 为 发 展 为 服务 的 网 
格 概念 ， 用 户 日 常 的 活动 可 能 开始 依赖 于 网 格 提供 的 服务 ， 参 与 者 之 间 的 这 种 非 正 式 的 了 解 不 
可 避免 的 要 被 更 正式 的 规范 和 契约 替代 。 这 个 特性 已 经 取得 成 果 ， 特 别 是 随 着 环球 网 格 论坛 
(World Wide Grid Forum) 的 建立 和 开放 网 格 服务 体系 结构 (OGSA) 的 工作 。 

网 格 的 可 靠 性 意味 着 容错 一 一 当 一 个 计算 节点 发 生 系 统 错误 ， 这 个 系统 必须 能 从 错误 中 恢 
复 并 重新 分 配 资源 ， 而 且 必 须 对 顶端 的 用 户 透 明 。 可 靠 性 还 意味 着 保证 安全 必须 保障 系统 
中 的 用 户 的 有 用 资源 不 可 被 其 他 人 访问 ， 其 他 人 也 不 能 恶意 地 阻止 他 们 使 用 资源 。 

注意 可 靠 性 和 保证 服务 质量 在 我 们 已 经 看 到 的 其 他 形式 的 虚拟 化 中 也 非常 重要 。 在 第 8 章 讨 
论 的 系统 虚拟 机 中 ， 许 多 VM 访问 一 个 复杂 的 硬件 ， 虚拟 机 监视 器 给 不 同 虚拟 机 公平 分 配 资源 就 
很 重要 。 类 似 地 ， 第 9 章 遇 到 的 不 同形 式 的 分 割 必须 保证 资源 分 配 公平 昌 要 最 大 化 系统 性 能 。 

服务 一 致 性 

由 网 格 提供 的 服务 的 行为 必须 是 可 预测 和 一 致 的 。 网 格 中 可 能 包含 多 种 类 型 的 机 器 和 系统 ， 
每 一 种 都 可 能 满足 一 个 特定 任务 的 需要 。 虽 然 不 能 保证 任务 的 响应 时 间 在 每 次 执行 时 都 相同 ， 
用 户 期 望 每 次 执行 都 得 到 一 致 的 结果 。 他 们 还 期 望 响应 时 间 在 一 个 合理 的 范围 内 。 

普遍 的 访问 

共用 性 的 一 个 重要 特征 是 能 够 对 任何 地 方 访问 。 多 数目 前 的 网 格 ， 包 括 正在 被 提出 来 的 ， 都 
采用 Internet 作为 通信 媒介 。 因 此 ， 只 要 Internet 从 世界 的 一 些 地 方 能 够 访问 ， 那 些 地 方 的 用 户 就 
可 以 利用 网 格 上 的 所 有 资源 。 

便宜 的 访问 

共用 服务 只 有 在 最 终 用 户 的 任务 费用 与 他 拥有 资源 执行 任务 的 开销 相 比 有 吸引 力 时 才能 普 
及 。 如 同 共用 事业 ， 网 格 能 满足 大 型 组 织 在 大 型 数据 库 上 数据 挖掘 的 任务 ， 也 能 满足 个 人 租用 视 
频 的 任务 。 

协同 的 资源 共享 

目前 提 到 的 网 格 的 属性 都 把 网 格 看 作 一 个 公用 事业 ， 然 而 网 格 预 想 的 不 仅仅 是 公用 事业 。 
公用 事业 的 用 户 不 会 相互 之 间 有 这 人 么 多 相同 点 一 一 他 们 组 成 一 个 团体 仅 是 因为 他 们 恰好 都 使 
用 相同 的 服务 。 但 是 作为 一 个 虚拟 组 织 结 构 ， 网 格 被 期 望 允 许 不 同 的 团体 汇聚 他 们 的 资源 ， 
为 了 共同 的 目标 协同 工作 。 网 格 的 这 个 看 法 需要 发 展 访问 不 同 私 有 资源 的 规范 ， 这 些 不 仅 包 
括 硬件 还 包括 内 容 和 程序 。 还 需要 发 展 不 同 群 甚至 不 同 网 格 之 间 的 通信 协议 。 系 统 资源 共享 
需要 精确 识别 共享 的 资源 ， 人 允许 共享 的 成 员 ， 共 享 的 方式 。 此 外 ， 底 层 的 基础 结构 必须 提供 
在 网 格 的 任意 位 置 发 现任 务 所 需 的 合适 资源 的 能 力 。 就 像 Internet 协议 是 Internet 广泛 应 用 的 
关键 ， 开 发 出 来 解决 这 些 共享 和 通信 问题 的 协议 ， 称 为 网 格 间 协 议 (intergrid protofols) ， 是 广 
泛 应 用 网 格 模型 的 关键 。 | 
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动态 的 团体 

随 着 网 格 模型 发 展 ， 单 一 的 网 格 不 仅 支 持 单个 团体 ， 更 支持 一 些 不 同 的 团体 。 一 个 团体 的 例 
子 是 一 组 协同 设计 一 个 新 药物 的 研究 人 员 。 这 个 团体 需要 的 资源 类 似 于 另 一 个 协同 解决 高 能 物 
理 问 题 的 团体 。 这 两 个 团体 要 能 够 在 一 个 网 格 里 共存 。 再 者 网 格 的 基础 结构 必须 保证 有 足够 的 
方法 提供 识别 、 监 视 和 控制 每 个 团体 的 需要 ， 并 把 每 个 团体 与 其 他 的 隔离 开 。 

团体 不 需要 是 静态 的 ， 可 以 为 了 解决 某 个 难题 的 特定 目标 组 成 ， 也 可 以 在 达到 目标 后 解散 。 
一 个 用 户 可 以 在 团体 存活 期 间 的 某 些 时 刻 加 入 这 个 团体 ， 然 后 在 其 后 的 某 些 时 刻 离开 。 一 个 用 
户 甚至 可 以 同时 是 其 个 不 同 团体 的 成 员 。 所 有 这 些 情况 需要 在 设计 网 格 时 在 体系 结构 和 接口 上 
建立 足够 的 规范 。 

网 格 概念 是 否 会 发 展 成 包含 一 个 统一 的 标准 协议 ， 就 如 Intermet， 还 有 符 观 察 。 现 在 有 一 些 
不 同 的 网 格 ， 每 个 都 有 自己 独立 的 协议 和 工具 集 及 管理 软件 。 有 可 能 最 终 出 现 的 模型 有 多 个 网 
格 ， 每 个 团体 有 一 个 网 格 ， 都 工作 在 很 大 的 物理 网 格 上 ， 为 每 个 团体 网 格 汇聚 资源 的 适当 部 分 。 
每 个 团体 网 格 拥有 自己 的 协议 簇 ， 实 际 上 可 以 被 视 为 一 个 虚拟 网 格 ， 很 大 程度 上 类 似 在 虚拟 机 
系统 中 共存 许多 不 同 操作 系统 的 虚拟 机 。 


10.3.2 网 格 计算 模型 仿真 ， Globus 工具 集 


计算 网 格 可 以 表现 出 一 些 不 同 的 形式 ， 从 简单 地 利用 用 户 机 器 上 的 空闲 时 钟 的 工作 台 网 络 
到 满足 用 户 立 约 把 单一 应 用 或 整个 虚拟 机 包围 起 来 的 需求 的 复杂 的 商业 服务 器 。 很 可 能 没有 单 
个 模式 会 获得 胜利 。 而 网 格 可 能 最 终 发 展 成 用 定制 来 解决 用 户 需求 的 服务 。 

投入 运用 的 网 格 系统 的 数量 跳跃 式 增长 ， 大 多 数 当前 成 果 都 是 为 了 把 指定 团体 的 研究 人 员 
汇 起 来 。 表 10-2 包括 了 不 同 网 格 的 不 同类 型 用 户 ， 从 系统 管理 员 到 最 终 用 户 。 每 种 类 型 的 目的 
都 与 其 他 类 型 不 同 ， 重 要 的 是 为 了 推动 网 格 使 用 开发 的 工具 包 适 合 所 有 类 型 用 户 的 需要 。 网 格 
开发 者 提供 所 需 的 基本 服务 来 构建 网 格 。 工 具 开发 者 构造 变 成 模型 和 应 用 程序 开发 者 所 需 的 相 
关 工具 ， 应 用 程序 开发 者 构造 最 终 用 户 的 网 格 应 用 。 

现在 有 了 有 效 的 成 果 提 供 基 本 结构 工具 让 用 户 配置 和 管理 他 们 自己 的 网 格 。 例 如 Globus 项 
目 (Globus) ， 这 是 一 项 开源 工作 ， 目 的 是 提供 核心 服务 、 接 口 和 协议 ， 以 使 用 户 能 够 创建 一 类 
新 的 应 用 无 缝 访问 远程 资源 同时 允许 资源 处 于 本 地 管理 下 。Globus 项 目 分 类 包括 软件 服务 和 执行 
发 现 、 监 视 和 管理 资源 的 库 函 数 ， 提 高 网 格 上 事务 的 安全 性 ， 热 行 更 多 例如 文件 管理 的 常规 功 
能 。 期望 它 提供 一 个 衬 底 ， 不 仅 支持 科学 和 工程 团体 之 间 协 作 ， 而 且 还 支持 商业 和 公司 。 这 个 研 
究 计划 最 开始 由 DARPA 资助 ， 但 现在 一 些 联邦 结构 和 公司 也 开始 提供 资助 。 


#102 ”网 格 用 户 类 型 (Foster 和 Kesselman 1998) 








类 型 目的 利用 关注 方向 
最 终 用 户 解决 问题 应 用 程序 透明 度 ， 性 能 
应 用 开发 者 开发 应 用 程序 编程 模型 ， 工 具 易 用 性 ， 性 能 
工具 开发 者 编程 模型 网 格 服 务 适应 性 ， 开 发 性 能 ， 安 全 性 
网 格 开发 者 提供 基本 网 格 服务 局 部 系统 服务 局 部 简单 ， 连 通 性 、 安 全 性 
系统 管理 员 管理 网 格 资源 管理 工具 平衡 局 部 和 全 局 关注 的 问题 


10. 3.3 比较 传统 虚拟 机 


这 一 节 中 ， 我 们 试图 突出 网 格 概念 和 这 本 书 中 我 们 已 经 所 述 的 其 他 虚拟 机 之 间 的 相似 和 





316 # 10 # 





不 同 。 

高 效 利用 资源 

第 一 个 网 格 的 最 终 目标 是 希望 利用 当今 世界 上 上 千 万 台 计 算 机 上 可 用 的 空闲 处 理 器 时 钟 周 
期 。 有 许多 基本 问题 需要 大 量 的 计算 能 力 ， 但 是 它们 的 解决 并 不 需要 使 用 大 型 、 昂 贵 的 超级 计算 
机 。 利 用 这 些 未 使 用 资源 去 解决 这 些 大 型 问题 将 是 对 世界 计算 资源 的 有 效 使 用 。 这 与 系统 虚拟 
机 和 多 处 理 虚 拟 机 包括 逻辑 划分 的 动机 相 类 似 。 

共享 资源 

单 处 理 器 和 多 处 理 器 系统 虚拟 机 都 支持 资源 共享 。 但 是 ,不 同 于 网 格 计算 ,传统 系统 虚拟 机 
中 的 共享 通常 受 限 于 物理 硬盘 资源 一 一 例如 这 些 系 统 中 的 VMM 根本 不 关注 内 容 共 享 。 

网 格 中 一 个 中 心 概念 是 通过 用 户 团 体 为 同一 个 目标 工作 来 共享 完全 不 同系 统 的 资源 。 发 现 
解决 问题 所 需 资源 及 为 了 使 用 这 些 资源 与 它们 的 拥有 者 之 间 的 协商 都 在 网 格 中 扮演 着 重要 的 
角色 。 

分 布 与 集中 控制 

与 传统 虚拟 机 相 比 ， 网 格 是 全 球 范 围 的 ， 资 源 遍 布 很 大 区 域 ， 可 能 遍布 全 世界 。 因 而 共享 资 
源 的 控制 不 能 用 集中 的 方式 。 由 于 Intemet， 网 格 用 户 可 能 互相 协作 去 决定 适当 的 共享 和 使 用 资 
源 。 这 和 传统 虚拟 机 监视 器 完全 不 一 样 ， 传 统 监视 器 必须 对 资源 有 集中 的 视图 ， 必 须 有 严格 控制 
资源 的 使 用 ， 避 免 危及 用 户 的 隐私 和 安全 性 。 

异 构 节 点 

和 操作 系统 一 样 ， 虚 拟 机 监视 器 和 系统 管理 程序 通常 不 会 超越 机 群 节点 的 范围 。VMM 工作 
最 佳 的 时 候 ， 就 是 它 可 以 灵活 在 一 系列 相似 的 真实 处 理 器 之 间 重 新 分 配 虚拟 机 。 节 点 上 的 组 件 
可 能 在 大 小 和 附加 的 设备 特性 上 不 同 ， 但 是 它们 在 处 理 器 支持 的 指令 集 上 是 相似 的 。 

在 网 格 上 ， 可 用 组 件 类 型 的 异 构 期 望 程度 更 高 。 每 个 机 群 的 处 理 器 、 存 储 器 和 IO 配置 可 能 
和 网 格 上 其 他 机 群 完全 不 同 。 此 外 ， 机 群 中 处 理 器 可 能 运行 和 其 他 机 群 不 同 的 操作 系统 ， 甚 至 指 
令 集 。 一 个 机 群 上 可 以 运行 的 程序 可 能 与 其 他 机 群 上 可 以 运行 的 程序 有 相当 大 的 不 同 。 一 个 机 
群 中 的 程序 可 能 和 其 他 机 群 上 完成 同样 功能 的 程序 完全 不 同 。 这 种 环境 产生 的 程序 可 能 不 直接 
指定 解决 问题 需要 的 指令 ， 而 是 描述 解决 问题 所 需 的 功能 。 网 格 的 软件 基本 结构 将 评估 可 以 完 
成 该 功能 的 不 同类 型 节点 的 可 用 性 ， 选 择 最 佳 机 群 和 节点 来 执行 该 功能 ， 还 要 合适 地 配置 必须 
运行 在 那个 节点 上 的 程序 。 

应 用 程序 的 适应 性 

过 去 加 在 虚拟 机 上 的 一 个 要 求 是 可 以 无 需 修 改 的 运行 应 用 程序 。 事 实 上 ， 应 用 程序 并 不 了 
解 其 是 运行 在 虚拟 机 上 ， 且 匹配 应 用 的 配置 与 真实 的 机 器 不 同 。 在 系统 虚拟 机 中 ， 不 仅 在 应 用 
层 ， 而 且 还 在 操作 系统 层 都 是 这 样 的 。 

在 网 格 的 早期 例子 中 透明 度 不 明显 。 相 关 的 例子 是 SETI@ home WA (Anderson 等 人 ， 
2002) ， 问 题 的 解决 方案 根据 网 格 的 物理 特性 剪裁 而 得 。 特 别 的 是 ， 这 个 解决 方案 能 意识 到 网 格 
节点 间 通 信 的 延迟 ， 将 问题 划分 为 多 块 ， 每 块 在 指定 的 计算 机 运行 一 段 相当 长 时 间 而 不 需要 和 
网 格 上 其 他 计算 机 通信 。 解 决 方案 还 要 解决 网 格 节点 潜在 的 不 可 靠 性 ， 通 过 多 次 发 送 每 一 个 问 
题 块 给 不 同 计算 机 解决 。 

希望 有 一 天 网 格 基本 结构 可 以 关注 这 些 功 能 ， 以 便 解 决 方案 开发 者 不 需要 只 关注 手边 的 问 
题 ， 而 是 问题 解决 所 需 平台 的 物理 特性 。 达 到 这 个 目的 有 很 多 挑战 ， 但 是 已 经 开始 有 一 些 成 果 。 
一 个 例子 就 是 库 函 数 的 开发 将 方便 程序 移植 ， 意 味 着 程序 可 以 原始 地 运行 在 消息 传递 机 群 上 ， 
也 可 以 运行 在 分 布 共享 存储 系统 上 ， 甚 至 在 紧 看 合 SMP 系统 上 ， 这 样 就 可 以 利用 网 格 上 的 可 用 
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计算 资源 (Foster 和 Karonis 1998) 。 

应 用 程序 的 移植 性 

正如 第 5 章 中 所 讨论 的 ， 高 级 语言 虚拟 机 上 越 来 越 关 注 程序 的 可 移植 ， 以 便 它 们 可 以 在 任何 
地 方 运行 。 因 在 编写 程序 时 要 考虑 可 移植 。 目 标 程 序 运行 在 虚拟 机 上 ， 如 Java 虚拟 机 ， 而 不 是 
专门 指令 集 的 处 理 器 。 这 是 在 这 方面 迈 了 一 步 。 使 应 用 可 以 运行 在 网 格 上 是 这 个 方向 迈进 的 另 
一 步 。 应 用 不 仅 可 以 在 异 构 系统 配置 使 用 ， 还 可 以 使 异 构 指 令 在 不 同 平台 甚至 将 来 出 现 的 那些 
平台 之 间 移 植 。 此 外 ， 网 格 上 组 件 潜 在 的 不 可 靠 性 和 在 这 开放 结构 上 保持 安全 性 和 隐私 ， 将 推动 
基础 底层 组 织 的 开发 ， 在 这 个 基础 结构 上 可 以 创建 即使 在 不 同 环境 下 也 产生 正确 结果 的 程序 。 


10.3.4 回 到 原 地 : 在 传统 虚拟 机 系统 上 实现 网 格 


正如 我 们 注意 到 的 ， 网 格 管理 涉及 的 一 些 软 件 ， 经 常 称 为 中 间 件 ， 执 行 不 同 操作 ， 包 括 给 任 
务 分 配 可 用 资源 ， 任 务 调 度 ， 和 确保 安全 性 和 隐私 。 中 间 件 支持 进程 级 抽象 ， 正 如 传统 操作 系统 
支持 进程 。 但 是 ， 网 格 和 操作 系统 之 间 相 似 性 不 会 太 多 。 例 如 ， 像 操作 系统 ， 网 格 必须 执行 用 户 
记 账 ; 但 是 不 像 操 作 系统 ， 网 格 依赖 多 样 管理 域 提供 的 记 账 服务 。 遗 留 代码 通常 运行 在 传统 操作 
系统 的 记 账 策略 下 ， 由 于 不 同 管理 域 使 用 不 同 的 记 账 策略 ， 对 遗产 工作 的 管理 的 方法 可 能 不 
一 致 。 

Figueiredo, Dinda 和 Fortes (2003) 提出 一 个 多 种 策略 问题 的 有 趣 解决 方案 ， 把 任务 抽象 层 
从 用 户 进程 层 改变 到 整个 机 器 ， 包 括 硬件 和 操作 系统 。 用 这 个 方法 ， 网 格 中 间 件 处 理 的 工作 单元 
变 成 系统 虚拟 机 而 不 是 进程 。 记 账 可 以 方便 地 用 分 层 方 法 建立 一 一 运行 在 虚拟 机 上 的 操作 系统 
用 传统 的 方法 进行 记 账 ， 而 资源 的 网 格 在 虚拟 机 层次 记 账 。 

利用 传统 虚拟 机 作为 网 格 的 一 个 单元 从 其 他 视角 来 看 也 是 合适 的 。 它 自动 专注 于 网 格 的 两 
个 重要 方面 一 一 任务 互相 隔离 和 平台 无 关 性 。 除 了 这 些 ， 它 添加 了 工作 环境 灵活 性 的 因素 。 用 户 
应 用 程序 没有 必要 为 了 一 些 给 定 节点 上 支持 的 操作 系统 而 重 写 一 一 工作 单元 包括 应 用 执行 的 全 
部 系统 环境 。 下 面 让 我 们 详细 考察 这 些 方面 。 

。 用 户 隔 离 ， 正 如 我 们 第 8 章 所 见 ， 系 统 虚 拟 机 一 开始 设计 为 多 道 编程 的 可 供 选择 的 办 法 ， 
每 一 个 用 户 都 和 物理 系统 及 运行 在 分 离 虚拟 机 上 的 其 他 用 户 隔 离 。 系 统 虚拟 机 的 这 种 特性 
保护 用 户 和 其 他 用 户 共享 资源 。 这 在 网 格 上 特别 重要 ， 这 里 信任 物理 资源 提供 者 可 能 不 是 
谨慎 的 。 此 外 ， 系 统 虚 拟 机 中 强制 性 隔离 用 户 的 模式 确保 更 大 的 系统 合成 。 和 上 典型 多 编程 
环境 相 比 ， 虚 拟 机 上 用 户 行为 造成 系统 瘫 疼 或 影响 其 他 用 户 的 可 能 性 比较 小 。 而 且 ， 正 如 
10.1.3 节 所 述 ， 因 为 对 单一 用 户 的 恶意 攻击 而 降低 整个 系统 安全 性 的 可 能 也 比较 小 。 
平台 独立 性 : 系统 虚拟 机 提供 的 平台 独立 性 在 网 格 计 算 中 也 很 有 和 用。 例如 ， 多 数 情况 下 用 
户 只 需 简单 地 定义 所 需 硬件 资源 ， 没 有 必要 要 求 物 理 系 统 和 用 户 规定 的 配置 完全 一 致 。 通 
过 许多 仿真 技术 ， 如 第 8 章 中 描述 的 ， 虚 拟 机 监管 器 可 以 虚拟 化 那些 物理 上 不 存在 的 设备 。 
同样 ， 没 必要 重新 编译 或 重新 链接 应 用 程序 ， 因 为 虚拟 机 监管 器 确保 ISA 级 的 兼容 性 。 
任务 管理 和 记 账 : 和 更 传统 的 网 格 相 比 ， 基 于 虚拟 机 的 计算 网 格 对 资源 控制 的 管理 有 基 
本 的 不 同 。 在 面向 进程 的 网 格 部 署 中 ， 和 传统 多 道 程序 系统 中 相似 ， 面 向 进程 网 格 中 的 
资源 控制 必须 管理 每 一 个 进程 。 在 虚拟 机 例子 中 ,资源 控制 具有 较 高 的 粒度 ， 即 在 虚拟 
机 层 。 这 种 高 粒度 可 以 简化 对 提供 者 和 用 户 资 源 的 分 配 和 记 账 。 另 外 ， 这 种 模式 和 大 型 
商业 计算 比较 匹配 ， 其 收费 基于 应 用 运行 的 系统 的 特定 性 能 。 
可 移植 性 : 应 用 的 可 移植 性 是 计算 网 格 的 关键 要 求 。 基 于 进程 的 网 格 和 基于 系统 虚拟 机 
的 网 格 都 强调 可 移植 性 ， 但 是 它们 实现 的 方法 不 同 。 基 于 进程 的 网 格 的 可 移植 由 应 用 程 
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序 员 确 保 。 例 如 ， 这 意味 着 为 大 量 网 格 节点 都 支持 的 工作 环境 编写 应 用 程序 。 此 外 ， 它 
可 能 还 意味 着 用 多 个 可 能 拥有 不 同 指令 集 的 节点 支持 的 高 级 语言 ， 如 Java， 编 写 应 用 程 
序 。 另 一 方面 ， 面 向 系统 虚拟 机 的 网 格 方法 ， 人 允许 应 用 程序 运行 在 任何 有 虚拟 机 监视 器 
的 支持 ， 由 应 用 指定 的 虚拟 机 的 平台 上 。 甚 至 这 可 能 扩展 到 不 同 指令 集 环 境 上 的 应 用 ， 
当然 是 在 节点 上 ， 和 应 用 所 需 的 指令 集 匹 配 ， 应 用 有 最 好 性 能 。 

从 Java 计算 模型 看 ， 基 于 进程 网 格 和 基于 系统 虚拟 机 网 格 的 不 同 可 以 归结 为 虚拟 机 所 支持 
的 特征 。 基 于 进程 的 网 格 节点 实现 专门 虚拟 机 环境 ， 如 Java， 和 希望 应 用 程序 是 为 它 编写 。 在 基于 
系统 虚拟 机 方法 中 ， 每 一 个 节点 支持 多 种 虚拟 机 ， 特 别 是 那些 更 普通 的 应 用 所 需要 的 。 因 而 前 者 
可 能 对 当前 编写 的 新 应 用 更 有 利 ， 而 后 者 可 能 更 适合 在 网 格 上 配置 遗留 的 应 用 。 

事实 上 ， 基 于 系统 虚拟 机 的 网 格 同 样 也 可 以 解决 当 迁 移 HLL VM 时 所 遇 到 的 环 手 问题 ， 倒 
如 把 Java 虚拟 机 从 一 个 平台 移植 到 另 一 个 平台 。 例 如 Java 虚拟 机 中 ， 去 封装 整个 应 用 的 Java 状 
态 和 库 函 数 不 难 。 但 是 典型 JVM 同样 也 有 自己 在 原始 节点 的 Java 状态 ， 可 以 运行 原始 原 语 ， 甚 
至 用 户 原始 代码 ， 所 有 这 些 都 很 难 在 JVM 级 封装 。 相 比 迁 移 JVM， 可 以 相对 容易 地 提高 迁移 粒 
E, 迁移 JVM 驻 留 的 整个 系统 。 例 如 ，JVM 可 以 运行 在 Linux 作为 主 操作 系统 的 虚拟 机 上 。 封 
装 的 虚拟 机 状态 将 不 仅 包 括 Java 状态 ， 还 包括 其 余 的 Java 应 用 状态 和 Linux 环境 状态 。10.2 节 
提出 的 不 同 技术 ， 例 如 ballooning ， 可 以 用 来 减少 封装 模块 的 大 小 。 

Figueiredo, Dinda 和 Fortes (2003) 提出 在 基于 系统 虚拟 机 网 格 上 任务 的 三 个 重要 方面 。 第 
一 个 就 是 获取 虚拟 机 状态 的 能 力 ， 第 二 是 可 以 用 刻 划 痕迹 或 状态 描述 示例 虚拟 机 的 能 力 ， 第 三 
是 保存 用 户 数据 的 能 力 。 他 们 指出 这 三 个 任务 没有 必要 在 则 一 机 器 上 都 拥有 。 例 如 ， 虚 拟 机 状态 
可 以 在 它 当 前 执行 的 位 置 获取 ， 但 是 它 可 以 在 传送 镜像 时 ， 在 男 一 个 地 方 另 一 台 机 器 上 重启 。 这 
个 概念 和 10.2 节 提 出 的 Collective (Sapuntzakis 等 人 ，2002) 及 Internet Suspend/Resume ( Ko- 
zuch 和 Satyanarayanan 2002) 中 的 概念 相似 ; 许多 提 及 的 和 这 些 方案 相关 的 优化 技术 同样 在 这 个 
例子 中 适用 。 正 如 讨论 Internet Suspend/Resume 时 所 提 ， 在 分 布 文件 系统 中 保存 用 户 数据 可 以 使 
封装 的 状态 很 小 。 

人 们 可 以 识别 出 为 基于 系统 虚拟 机 网 格 执行 三 种 不 同类 型 功能 的 三 种 不 同类 型 服务 器 。 这 
个 应 用 运行 在 计算 服务 器 (或 虚拟 机 主机 〉 中 的 虚拟 机 上 ， 服 务 器 的 虚拟 机 监视 器 可 以 封装 一 
些 检查 点 的 机 器 状态 ， 使 得 它 可 以 在 其 他 地 方 被 访问 。 当 虚拟 机 需要 重启 时 ， 镜 像 服务 器 提供 以 
前 封装 的 状态 镜像 。 在 数据 服务 器 上 保留 数据 有 利于 从 网 格 上 任 一 计算 服务 器 统一 访问 数据 。 

在 异 构 服务 器 系统 中 ， 管 理 网 格 所 需 的 工具 和 管理 基于 进程 网 格 所 需 的 相差 不 多 。 人 们 可 
以 使 用 所 有 这 些 为 他 的 目的 建造 的 基本 底层 结构 工具 。 例 如 使 用 10. 3. 2 节 所 提 到 的 Globus 工具 
包 ， 这 样 的 工具 包 对 基于 系统 虚拟 机 的 网 格 的 成 功 是 关键 的 。 它 们 为 网 格 管 理 相 关 的 功能 提供 
了 方便 ,例如 调度 虚拟 机 ， 迁 移 虚 拟 机 和 实施 服务 层 协议 。 更 重要 的 是 ， 它 们 还 可 以 使 用 户 规范 
他 们 的 任务 需求 ,使 提供 者 宣传 他 们 将 提供 的 虚拟 机 的 能 力 ， 由 用 户 任务 竞标 和 监视 他 们 系统 
上 资源 的 使 用 。 

我 们 通过 再 现 来 自 Figueiredo Dinda 和 Fortes (2003) 的 一 个 简单 情形 来 结束 这 节 。 基 于 假 
想 的 网 格 (图 10-13) 和 例子 ,我们 来 说 明 今 天 已 经 存在 的 工具 实现 网 格 上 的 虚拟 机 时 所 需要 的 
许多 功能 。 

L 用 户 环 访问 网 格 ， 用 前 端 服 务 器 下 上 的 网 格 中 间 件 发 布 他 或 她 的 要 求 。 咨 询 信 息 服 务 检 
查 匹 配 立 要求， 而 且 可 以 支持 动态 虚拟 机 的 可 用 物理 机 器 。 作 为 一 个 选择 ， 用 户 还 可 以 只 是 发 
布 他 或 她 的 要 求 ， 选 择 潜在 任务 提供 者 的 投标 。 

2. X 同样 咨询 信息 服务 去 决定 映像 服务 器 ， 它 可 以 提供 安装 了 满足 应 用 需求 的 基本 操作 系统 
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的 映像 。 作 为 选择 ，X 自身 还 可 以 提供 包含 一 些 操作 系统 定制 版 本 的 VM 映像 。 

3. 使 用 来 自 映像 服务 器 1 的 映像 ， 在 物理 服务 器 P 上 示例 一 个 新 的 虚拟 机 。 映 像 可 以 使 用 
传送 数据 的 显示 命令 ,例如 GridFTP (Allock ÆA, 2001) 从 I 传送 到 P, 或 P 可 以 通过 分 布 网 
格 虚拟 文件 系统 访问 这 个 映像 。 







应 用 程序 服务 器 
(前 端正) | 
con 










The internet 








Ea | 物理 服务 器 P | 
B TU > SER Ab a TA EEE NORE 


映像 服务 器 了 





E- | 

数据 服务 器 D 

图 10-13 ”说 明基 于 虚拟 机 网 格 服务 一 些 元 素 的 例子 (HL Figueiredo, Dinda 和 Fortes 2003)。 用 户 X 
利用 前 端 服 务 器 的 服务 ， 分 配 到 物理 服务 器 P 上 的 一 个 虚拟 机 Vi。 这 个 虚拟 机 从 映像 服 
务 器 1 上 得 到 它 的 映像 。 应 用 从 数据 服务 器 D 上 得 到 数据 


4. 物理 服务 器 P 的 位 置 对 用 户 可 知 ， 用 户 可 以 利用 安全 的 shell， 如 OpenSSH (OpenSSH) 
a Globus GRAM (Czajkowski 等 人 ，1998) ， 与 启动 的 虚拟 机 Vi 协商 。 这 个 虚拟 机 可 能 是 新 引 
导 的 ,或 是 已 存在 的 ， 它 刚 从 保存 的 镜像 中 恢复 。 在 那 时 候 虚拟 机 实例 Vi 可 能 也 被 赋予 动态 IP 
地 址 ， 例 如 使 用 DHCP (DHCP) 。 最 近 开发 的 一 项 有 趣 技 术 ( Sunderaraj 和 Dinda 2004) 使 得 虚 
拟 机 即使 在 它 从 主机 迁移 到 另 一 主机 也 可 以 保存 它 的 他 地 址 。 

5, 一旦 虚拟 机 实例 Vi 运行 并 连接 到 网 络 ， 就 建立 附加 数据 Sessionss 来 把 Vi 上 的 客户 操作 
系统 连接 到 应 用 服务 器 4， 再 到 用 户 数据 服务 器 D。 和 以 前 一 样 ， 这 些 事务 可 以 通过 传输 实现 ， 55 
如 GridFTP， 或 通过 分 布 文件 系统 隐 式 转移 。 kio 

6. 现在 应 用 开始 在 虚拟 机 Vi 的 客户 操作 系统 下 执行 。 如 果 它 是 单机 批 处 理应 用 ， 应 用 在 不 
被 人 注意 的 情况 下 运行 ， 可 能 只 在 结束 时 候 通 知 用 户 。 如 果 它 是 交互 应 用 ， 用 户 通过 登录 对 话 或 
虚拟 显示 和 应 用 交互 ， 例 如 VNC (Richardson 等 人 ，1998) 。 

前 面 所 述 ， 假 定 用 户 只 和 应 用 交互 。 熟 练 的 用 户 可 能 有 操作 系统 的 控制 台 ， 甚 至 有 虚拟 机 自 
身 的 控制 台 。 用 户 ， 而 不 是 网 格调 度 器 ， 可 以 决定 什么 时 候 关机 ， 休 眠 ， 恢 复 ， 和 迁移 虚拟 机 。 
执行 这 些 任务 所 需 的 机 制 和 以 前 所 提 相似 ， 即 机 器 间 高 效 传输 ， 分 布 虚拟 文件 系统 ， 和 虚拟 网 络 
的 文件 传输 机 制 。 

虚拟 机 ， 像 真实 机 器 一 样 ， 即 使 生成 它 的 应 用 完成 后 还 可 以 存在 。 如 果 它 在 相当 长 时 间 处 于 
不 活动 状态 ， 网 格 管理 系统 可 以 设置 它 休眠 ， 存 共享 文件 系统 上 或 一 些 其 他 全 局 可 访问 空间 上 
保存 它 的 镜像 。 当 需要 它 的 服务 时 ， 虚 拟 机 在 几 个 可 能 的 计算 服务 器 中 的 任 一 个 上 重新 启动 ， 使 
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用 合适 的 变化 去 处 理 和 镜像 服务 器 的 通信 ， 开 启用 户 显示 会 话 。 仅 当 任 何 镜像 服务 器 上 或 系统 
的 永久 存储 上 没有 虚拟 机 的 镜像 时 ， 虚 拟 机 通话 才 会 终止 。 

执行 遗留 程序 的 重要 性 不 能 低估 。 这 个 世界 充满 这 样 的 应 用 ， 特 别 是 对 商业 很 关键 ， 或 者 因 
为 很 难 移植 应 用 到 新 平台 上 或 因为 它们 运行 的 环境 提供 的 能 力 不 能 匹配 新 平台 。 原 始 IBM 大 型 
机 的 高 可 靠 性 和 可 用 性 通过 进化 到 zSeries 而 得 以 保留 ， 它 保持 了 大 型 商业 组 织 的 效能 。 基 于 虚 
拟 机 的 网 格 计算 系统 目的 是 为 了 在 现在 不 同 平 台 上 开发 的 关键 应 用 中 扮演 相似 的 角色 。 另 外 ， 
如 前 面 观察 到 的 ， 基 于 系统 虚拟 机 模式 有 天 生 吸 引 人 的 性 质 ， 即 使 布置 新 应 用 。 以 前 面 章 节 所 述 
的 技术 确保 虚拟 机 正确 性 和 高 效 性 可 能 最 终 在 网 格 执行 中 应 用 。 


10. 3.5 结论 


这 节 提 到 的 许多 情形 也 和 商业 特别 是 大 型 公司 相关 。 商 业 方面 的 研究 和 开发 通常 涉及 以 下 
方面 ; 使 用 大 量 数据 ， 许 多 内 部 和 外 部 的 协作 者 跨越 很 广 的 区 域 ， 在 全 球 范围 内 用 大 量 计算 资源 
进行 分 析 和 挖掘 。 人 们 感觉 到 正如 Internet FR, Internet 从 作为 科学 研究 合作 的 媒介 发 展 到 我 们 
每 个 人 的 媒介 ， 特 别 是 商业 ， 网 格 概念 超越 科学 团体 ， 把 商业 团体 和 大 到 全 球 都 包含 进来 。 


10.4 总 结 


本 书 的 前 面 章 节 我 们 描述 了 已 经 实现 多 年 的 不 同类 型 的 虚拟 机 。 过 去 几 十 年 中 ，VLSI 处 理 
技术 发 展 迅 速 ， 处 理 能 力 变 得 相对 便宜 ， 而 且 这 可 能 造成 一 些 传统 类 型 虚拟 机 暂时 不 再 受 欢 迎 。 
本 章 提出 为 信息 处 理 的 新 平台 和 新 组 织 将 重新 引起 人 们 对 这 样 虚拟 机 的 兴趣 。 这 章 我 们 主要 关 
注 三 类 应 用 。 所 有 类 型 的 现代 计算 系统 的 安全 关注 几乎 每 天 都 是 头条 。 保 护 系统 中 的 潜在 虚拟 
机 (在 大 型 机 器 和 小 型 移动 设备 中 ) 不 能 被 忽视 。 我 们 已 经 展示 了 在 与 各 种 不 同类 型 安全 问题 
斗争 中 使 用 虚拟 机 的 例子 。 

在 从 一 个 硬件 平台 迁移 整个 计算 环境 到 另 一 个 平台 中 使 用 的 虚拟 机 技术 正 被 证 明 在 企业 计 
算 中 非常 重要 ， 企 业 计算 中 应 用 通常 连续 运行 很 长 时 间 ， 由 于 硬件 故障 ， 能 量 考虑 ， 负 载 平衡 和 
系统 更 新 这 样 的 迁移 很 有 必要 。 

我 们 也 已 经 看 到 怎么 扩展 虚拟 技术 到 新 兴 的 网 格 概念 。 事 实 上 ， 虚 拟 化 和 虚拟 机 技术 为 了 
将 来 所 有 类 型 计算 系统 中 无 所 不 在 的 部 署 而 保持 。 


附录 A 实际 机 器 


许多 虚拟 机 实际 上 呈现 出 和 一 些 理想 的 真实 机 器 相同 的 接口 。 此 外 ， 所 有 的 虚拟 机 都 是 在 一 些 
真实 的 机 器 上 实现 的 ， 虚 拟 的 资源 最 终 都 要 通过 实际 的 资源 来 实现 。 因 此 ， 为 了 更 全 面 地 理解 虚拟 
机 ， 我 们 有 必要 理解 一 个 典型 的 计算 机 系统 的 主要 组 成 部 分 ， 包 括 它 们 的 接口 以 及 通过 接口 管理 的 
内 部 资源 。 本 附录 概述 了 主要 的 计算 机 系统 组 成 部 件 ， 重 点 放 在 与 虚拟 机 实现 最 相关 的 部 分 。 

本 篇 首先 概要 介绍 计算 机 系统 的 三 个 主要 硬件 部 件 : 处 理 器 、 存 储 器 、 输 入 输出 系统 (I 
O) ; 接着 介绍 指令 集体 系 结构 CISA) RE, 讨论 如 何 使 用 ISA 来 进行 运算 和 管理 硬件 资源 ; 
然后 描述 操作 系统 的 组 成 ， 重 点 在 如 何 管理 系统 资源 。 再 下 一 步 是 关于 多 处 理 器 系统 的 重要 内 
A; 最 后 对 两 种 被 作为 例子 一 直 贯 穿 于 全 书 的 ISA: PowerPC ISA 和 Intel IA-32 ISA 进行 总 结 。 

多 年 来 ,产生 了 许多 不 同 的 计算 机 体系 结构 ， 随 着 不 断 发 展 它们 开始 呈现 出 一 些 相 似 的 特征 ,但 
到 目前 为 止 ,流行 的 各 种 体系 结构 中 仍然 还 存在 很 多 明显 的 差异 。 在 这 里 讨论 所 有 的 类 型 是 不 现实 的 
(即使 用 整 本 书 来 讲 也 一 样 ) ， 所 以 在 这 里 我 们 只 涉及 与 虚拟 机 讨论 相关 的 典型 系统 结构 特征 。 另 外 ， 
我 们 假定 本 篇 的 读者 对 操作 系统 有 一 定 了 解 ， 并 具有 指令 集体 系 结构 CISA) 的 基本 概念 。 


A. 1 计算 机 系统 硬件 


图 A-1 举例 说 明了 一 个 桌面 计算 机 系统 的 典型 结构 。 多 处 理 器 服务 器 的 组 织 结构 会 在 A.7 
节 提 到 。 两 种 类 型 的 系统 都 由 处 理 器 、 存 储 器 和 包含 高 速 与 低速 总 线 的 IO 子 系统 组 成 。 在 接 下 
来 的 章节 中 将 分 别 介 绍 这 三 个 主要 的 部 分 。 


局 域 网 硬盘 
低速 IO 总 线 


图 A-1 系统 组 织 结构 
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A. 1.1 处 理 器 


处 理 器 的 功能 是 从 存储 器 中 取出 指令 并 执行 。 各 种 类 型 指令 和 它们 的 操作 会 在 A.2 节 介 绍 。 
在 这 一 节 ， 我 们 简要 分 析 重 要 的 处 理 器 微 体系 结构 的 类 型 。 

图 A-2a 举例 说 明了 一 个 简单 的 按 序 流水 线 ， 指 令 在 执行 时 顺序 地 通过 流水 线 的 一 系列 阶 
段 。 流水 线 实际 上 按照 生产 线 的 方式 完成 它 的 操作 。 尽 管 每 一 个 流水 阶段 同时 只 能 容纳 一 条 
指令 , 但 却 可 以 让 多 条 指令 同时 存在 于 整个 流水 线 中 。 在 图 A-2a 中 指令 按照 它们 自然 的 程序 
执行 顺序 ( 按 序 ) 通过 流水 线 ， 首 先 被 取 指 和 译 码 ， 当 指令 所 需 的 操作 数 已 经 准备 好 后 ， 从 
寄存 器 或 者 存储 器 中 读 取 操作 数 ， 并 执行 指令 ， 最 后 指令 运行 结果 被 写 回 寄存 器 或 者 存 人 存 
MAAE o 

一 些 指令 依赖 于 前 面 指令 的 运行 结果 ， 如 果 在 指令 需要 时 这 些 结果 还 没有 准备 好 ， 流 
水 线 必须 暂停 这 条 指令 的 执行 ， 直 到 前 面 的 指令 把 结果 算出 来 。 如 果 一 条 指令 需要 好 几 个 
周期 来 产生 结果 ， 比 如 从 存储 器 中 读数 据 ， 那么 后 续 的 相关 指令 就 必须 暂停 好 几 个 周期 。 
很 显然 ， 指 令 出 现 的 次 序 和 它们 之 间 的 依赖 关系 决定 了 要 暂停 的 拍 数 ， 也 决定 了 整个 流水 
线 的 性 能 。 

许多 高 性 能 处 理 器 使 用 一 种 超标 量 微 体系 结构 ， 如 图 A-2b 所 示 。 在 一 个 超标 量 处 理 器 中 ， 
同一 个 时 钟 周期 能 取 指 和 译 码 多 条 指令 ， 所 以 与 简单 的 流水 线 相 比 具有 更 高 的 峰值 指令 吞吐 量 。 
译 码 以 后 ， 指 令 被 分 派 到 一 个 指令 发 射 缓冲 ， 一 旦 操作 数 准 备 好 就 从 缓冲 发 射 并 执行 ， 不 再 考虑 
它们 原来 的 程序 执行 顺序 ， 这 被 称 为 “ 乱 序 ”发 射 。 这 种 方式 避免 了 许多 前 述 流水 线 中 由 于 指 
令 相 互 依赖 而 出 现 的 暂停 。 

. 第 三 类 处 理 器 ， 如 图 A-2c 所 示 ， 能 在 一 个 时 钟 周期 内 执行 多 条 指令 ， 但 只 能 按照 原始 的 编 


“ 译 时 指定 的 顺序 。 由 编译 器 来 安排 把 多 条 可 以 独立 并 行 执行 的 指令 组 合 在 一 个 很 长 的 指令 字 中 


(VLIW)。 在 下 一 个 VLIW 被 发 射 之 前 ， 上 一 个 VLIW 中 的 所 有 指令 都 要 被 发 射 。 与 乱 序 超 标量 
处 理 器 相 比 ， 这 种 顺序 发 射 VLIW 的 方式 使 得 指令 发 射 软 辑 得 到 简化 ， 但 它 将 寻找 并 重新 排列 独 
立 指 令 组 的 重任 交 给 了 编译 器 ， 而 不 是 像 乱 序 超标 量 处 理 器 那样 由 硬件 完成 。 


A. 1.2 存储 器 系统 


现代 计算 机 的 存储 器 系统 由 主 存 和 高 速 缓 存 (cache) 组 成 。 主 存 由 操作 系统 显 式 管理 ， 而 
高 速 缓存 一 般 和 由 硬件 管理 ， 对 软件 是 透明 的 。 

主 存 

主 存 主要 由 随机 访问 存储 器 (RAM) 芯片 构成 ， 被 组 织 成 多 个 数据 位 可 以 并 行 访问 的 结 
构 。 通 常 一 次 至 少 可 以 访问 一 个 字 (4 个 字 节 ) ， 但 常常 会 更 多 ， 比 如 32 到 128 个 字 节 。 在 大 
多 数 现 代 处 理 器 中 ， 主 存 最 小 单独 寻 址 单位 是 字 节 ， 如 果实 际 存储 器 地 址 宽度 是 mn 位 的 话 ， 
那么 就 有 2" 字 节 的 实际 地 址 空间 。 处 理 器 的 load 和 store 访 存 指令 会 按照 A.2.2 节 描 述 的 方 
式 产生 实际 地 址 。 如 图 A-3 所 示 ， 并 非 实际 地 址 空间 的 所 有 地 址 都 必须 与 RAM 对 应 ,一 些 地 
址 会 与 只 读 存 储 器 (ROM) 对 应 ， 还 有 一 些 地 址 甚至 可 能 没有 任何 对 应 的 存储 器 。 这 些 没有 
对 应 存储 器 的 地 址 中 ， 有 些 可 能 保留 给 了 LO 设备 ， 有 些 因为 对 应 的 地 址 空间 没有 安装 存储 
芯片 则 未 被 使 用 。 
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a) 简单 流水 线 





c)VLIW 处 理 器 
图 A-2 三 种 处 理 器 微 体系 结构 
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, 到 IO 设备 
n 位 地 址 线 。 





图 A-3 实际 地 址 空间 。 它 通常 用 来 寻 址 RAM 和 ROM， 有 一 部 分 
实际 地 址 空间 用 于 LO 设备 寻 址 ， 有 一 部 分 未 用 

高 速 缓存 

现代 处 理 器 需要 的 主 存 容 量 相当 大 ， 而 且 访 问 如 此 大 的 主 存 需要 数 十 个 其 至 上 百 个 处 理 器 
周期 ， 包 括 存储 控制 器 、 总 线 等 的 延 时 。 为 了 减少 可 察觉 的 主 存 访问 延迟 ， 通 常 使 用 一 种 更 快 、 
更 小 的 存储 器 ， 也 就 是 高 速 缓 厅 ， 在 其 中 保存 处 理 器 马上 可 能 用 到 的 指令 和 数据 ， 这 种 设计 基于 
“局 部 性 ”原理 。 这 个 原理 描述 如 下 : 最 近 刚 刚 被 使 用 的 数据 或 者 指令 很 可 能 在 不 远 的 将 来 被 再 
次 使 用 (时 间 局 部 性 )， 在 现在 被 访问 的 位 置 周围 的 数据 或 指令 也 很 有 可 能 在 不 远 的 将 来 被 访问 
空间 局 部 性 ) 。 

高 速 缓存 内 部 的 cache k (tH RAR cache 行 ) 保存 了 对 应 于 最 近 被 访问 到 的 主 存 位 置 的 数 
据 和 指令 ， 在 任何 时 候 ， 高 速 缓存 都 保存 着 主 存 块 的 一 个 小 的 子 集 。 为 了 判断 哪个 主 存 块 在 高 速 
缓存 中 ， 高 速 缓 存 被 设计 为 “ 相 联 ”访问 一 一 每 个 cache 块 都 有 一 个 相 联 标签 来 标示 这 个 cache 
块 对 应 的 主 存 地 址 。 图 A-4 是 一 个 “全 相 联 ” 的 高 速 缓存 ， 它 是 一 种 最 容易 理解 的 高 速 缓存 实 
现 方式 〈 尽 管 未 必 是 最 容易 构建 的 ) 。 在 全 相 联 的 高 速 缓存 中 ， 存 储 器 地 址 先 和 所 有 的 cache 标 
签 比 较 ， 以 判断 该 地 址 对 应 的 内 容 是 否 在 高 速 缓存 中 。 如 果 高 速 缓存 命中 ， 数 据 或 指令 就 从 高 速 
缓存 中 读 出 来 并 立刻 送 给 处 理 器 。 如 果 高 速 缓 存 不 命中 ， 就 要 从 主 存 中 取出 对 应 块 的 内 容 并 放 
人 高 速 缓存 。 为 了 给 新 块 腾 出 空间 ， 必 须根 据 替 换算 法 选择 其 他 的 cache 块 替换 掉 。 有 两 种 常用 
的 替换 策略 ， 一 种 是 最 近 最 少 使 用 〈LRU) ， 另 一 种 是 先进 先 出 〈EFIFO) 。 时 间 局 部 性 能 被 这 样 
的 替换 算法 利用 起 来 ， 而 空间 局 部 性 则 通过 以 下 的 事实 来 利用 : 一 个 cache 块 存放 了 比 处 理 器 一 
次 所 请 求 的 数据 更 多 的 数据 单元 〈 字 或 字 节 ) ， 由 邻接 或 包围 该 访问 位 置 的 一 个 块 中 的 数据 单元 
组 成 。 
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图 A-4 ”一 个 全 相 联 的 高 速 缓存 


A. 1.3 VO 系统 


在 图 A-l 中 我 们 看 到 一 个 典型 的 系统 通过 各 种 接口 与 辅助 IO 设备 相连 ， 这 是 一 个 典型 的 桌 
面 系统 。 相 上 比较 而 言 ， 典 型 的 服务 器 系统 有 更 少 的 设备 种 类 ， 但 某 种 类 型 的 设备 数目 可 能 会 更 多 
(如 磁盘 ) ， 而 且 这 些 设备 都 使 用 更 高 带宽 的 互 连 。 

一 个 IO 系统 包括 一 些 连 接 处 理 器 和 存储 器 到 IO 设备 的 总 线 。 这 些 IO 总 线 通常 是 标准 化 
的 ， 这 样 第 三 方 厂商 能 制造 出 可 立即 应 用 于 系统 的 新 设备 。 桌 面 系统 的 PCI 总 线 就 是 一 个 例子 。 
大 多 数 设备 通过 一 个 控制 器 接 到 总 线 上 ， 典 型 的 设备 包括 磁盘 、 磁 带 (已 经 变 得 不 常见 了 ) 、 显 
示 器 、 键 盘 等 。 总 线 作为 寻 址 设备 〈 或 它们 的 控制 器 ) 和 向 设备 发 送 命令 的 通道 ， 而 且 数据 通 
过 它 在 处 理 恬 或 存储 器 和 IO 设备 间 传 输 。 

在 典型 系统 中 有 四 种 组 织 WO 的 方式 ， 如 图 A-5 所 示 。 每 种 组 织 方式 都 要 求 操作 系统 按 一 种 
特定 的 方式 调用 IO 操作 。 

e 可 编程 的 VO， 如 图 A-5a 所 示 ， 操 作 系 统 通过 LO 总 线 发 出 一 个 IO 请 求 ， 轮 询 设备 控 

制 器 直到 请 求 得 到 满足 。 这 种 方式 在 通用 系统 中 使 用 得 很 少 ， 因 为 当 进 行 VO 操作 时 处 
理 器 无 法 进行 别 的 工作 。 

。 第 二 种 方式 是 中 断 驱动 TO， 如 图 A-5b 所 示 。 当 处 理 器 发 出 O 请 求 后 可 以 继续 做 其 他 
的 工作 ， 控 制 器 通过 中 断 将 该 请 求 的 状态 通知 操作 系统 ， 如 IO 操作 已 完成 。 这 样 的 控 
制 粒度 仍然 相当 小 : 控制 器 和 存储 器 间 每 个 单元 的 数据 传输 都 需要 操作 系统 的 干预 。 

。 第 三 种 方式 是 DMA 管理 LO， 如 图 A-5c 所 示 。 通 过 允许 VO 控制 器 直接 访问 存储 器 改 
进 了 中 断 驱 动 IO 方式 的 性 能 。 控 制 器 能 够 使 用 一 系列 总 线 事 务 在 IO 设备 和 存储 器 间 
传输 大 块 的 数据 ， 只 是 在 完成 整个 任务 后 才 给 操作 系统 发 出 中 断 信 号 。 这 种 IO 方式 在 
传输 大 块 数据 的 设备 中 广泛 使 用 ， 比 如 磁盘 。 

。 最 后 一 种 IO 组 织 方式 是 用 LO 处 理 器 (IOPs) 来 实现 更 混杂 的 DMA 管理 IO 方式 ， 

在 大 型 机 中 IOP 通常 被 称 为 “通道 ”( 见 图 A-Sd), IOP 是 一 种 特殊 的 处 理 器 ， 它 可 以 执 
行 自己 的 程序 以 实现 复杂 的 IO 事务 。IOP 通过 主 存 与 操作 系统 通信 ， 从 存储 器 中 操作 
系统 设 定 的 程序 中 读 取 指 令 。IOP 能 缓冲 不 同 设备 的 传输 事务 ， 并 把 它们 打包 以 获得 最 
佳 的 可 用 IO 资源 利用 率 。 
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c) DMA 管理 VO d) JH IOP VO 
BAS 不 同类 型 的 IO 


A.2 MA ISA: 运算 


处 理 器 体系 结构 的 基本 形式 中 通常 定义 了 存储 资源 的 集合 ， 例 如 寄存 器 和 存储 器 ， 还 有 在 
寄存 器 、 存 储 器 间 传输 数据 的 指令 集 。 存 储 资 源 定义 和 操作 数据 的 指令 定义 ， 都 在 处 理 器 的 ISA 
中 明确 用 文档 说 明 。 为 了 确保 不 同 ISA 实现 之 间 的 软件 兼容 性 ， 有 必要 对 一 个 指令 进行 详细 描 
述 ， 要 明确 指出 哪些 操作 作为 指令 执行 的 结果 确切 要 发 生 。 对 一 个 用 户 程 序 可 见 的 结构 化 存储 
的 关键 部 分 如 图 A-6 所 示 。 用 户 存储 器 就 是 一 大 块 存储 ， 而 寄存 器 则 对 完成 计算 非常 重要 。 寄 
存 器 状态 比 存储 器 状态 变化 多 ， 无 论 是 格式 还 是 功能 上 。 


用 户 逻 辑 存 储 器 专用 寄存 器 





图 A-6 一 个 典型 ISA 的 关键 结构 化 用 户 状 态 。 包 含 逻 辑 (虚拟 ) 地 址 空间 ， 
专用 寄存 器 ， 通 用 寄存 器 和 浮 点 寄存 器 
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A.2.1 寄存 器 体系 结构 


在 典型 应 用 中 ， 主要 使 用 的 寄存 器 是 通用 寄存 器 和 少量 专用 寄存 器 。 其 他 的 专用 寄存 器 或 
者 特殊 寄存 器 (比如 浮 点 寄存 器 ) 的 使 用 ， 根 据 不 同 应 用 性 质 有 相应 的 变化 。 

通用 寄存 器 

这 些 寄存 器 通常 被 称 为 “工作 ”寄存 器 ， 它 们 一 般 被 用 来 存放 指令 的 操作 数 ， 或 者 用 来 暂 存 复 
杂 操 作 的 中 间 结 果 和 常用 的 常量 、 地 址 。 通 用 寄存 器 经 常 存 放 不 同类 型 的 数据 ， 举 例 来 说 ， 一 
用 寄存 器 的 内 容 可 能 是 一 个 布尔 量 、 一 个 字符 变量 、 一 段 字 符 、 一 个 半 字 、 一 个 32 位 整 型 数 、 一 
个 64 位 整 型 数 或 一 个 存储 器 的 地 址 。 有 时 一 个 通用 寄存 器 也 有 特殊 用 途 ， 比 如 作为 一 个 栈 指针 。 

特殊 类 型 寄存 器 

提供 个 别 寄存 器 用 于 特殊 的 操作 常常 是 很 方便 的 ， 比 如 PowerPC 提供 了 单独 的 寄存 器 用 于 
浮 点 操作 的 操作 数 ， 因 此 被 称 为 浮 点 寄存 器 。IA-32 ISA 提供 了 一 种 寄存 器 类 型 用 于 存放 存储 器 
段 的 指针 。 使 用 多 种 寄存 器 类 型 并 使 操作 数 靠 近 执 行 操作 的 功能 单元 能 使 硬件 实现 更 简洁 。 但 
在 某 种 情况 下 会 让 编译 器 设计 的 难度 加 大 ， 因 为 它 需 要 跟踪 记录 保存 某 些 数据 单元 的 寄存 器 类 
型 ， 有 的 时 候 可 能 需要 移动 数据 使 之 进入 正确 的 寄存 器 类 型 。 

专用 寄存 器 

其 中 最 重要 的 就 是 程序 计数 器 (PC) ， 其 他 专用 寄存 器 包括 条 件 码 寄存 器 、 栈 指针 、 链 接 寄 
存 器 和 循环 计数 寄存 器 。 专 用 寄存 器 通常 被 某 些 指令 隐 式 使 用 ， 而 不 用 在 操作 它 的 指令 中 作为 
操作 数 显 式 指定 出 来 。 例 如 链接 寄存 器 经 常 被 用 到 分 支 或 者 跳 转 指令 中 。 另 外 一 个 例子 ， 
EFLAGS 是 mtelIA-32 ISA 中 一 个 单独 的 寄存 器 ， 存 放 了 一 组 隐 式 条 件 码 位 和 一 些 其 他 的 状态 位 。 







OxF FFFF FFFF FFFF 





OxFFFF FFFF F AE? OxFFFF FFFF 







对 用 户 | 
| 不 能 访问 | 


\ 
eh et eee 
| eee 
\ f 
| 


1 


a) MIPS R 系列 的 线性 地 址 b ) PowerPC 的 分 段 地 址 
图 A-7 用户 看 到 的 存储 器 体系 结构 
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A.2.2 存储 器 体系 结构 
站 在 应 用 程序 的 观点 来 看 ， 逻 辑 存 储 器 的 结构 是 相当 简单 明了 的 。 在 一 些 JISA 定义 中 ， 主 存 
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表现 为 一 个 单一 线性 地 址 空间 ; 在 另外 一 些 ISA 中 ， 主 存 表现 为 一 些 段 的 集合 ， 这 些 段 的 基 址 保 
存在 段 寄存 器 。 例 如 Intel 的 IA-32 被 构造 为 段 的 集合 ， 但 操作 系统 能 通过 把 同样 的 值 放 入 段 寄 
存 器 来 使 得 它 表 现 为 单一 的 线性 地 址 空间 (如 Windows 和 UNIX 中 做 的 那样 ) 。IA-32 的 存储 器 
结构 会 在 A. 8. 2 作出 总 结 。 

一 个 线性 地 址 空间 的 例子 是 MIPS 32 -位 ISA 定义 的 用 户 模 式 地 址 空间 (kuseg) ， 如 图 A-7a 
所 示 。2GB (2°45) 的 用 户 空间 从 地 址 0x00000000 开始 到 地 址 0x7FFFFFFF。 地 址 通常 存放 于 
一 个 32 位 寄存 器 中 ， 只 要 这 些 寄存 器 的 最 高 位 为 0， 那 么 就 是 一 个 有 效 地 址 。 任 何 试图 用 其 他 
地 址 访问 存储 器 都 会 产生 一 个 地 址 错 异 常 。 

另 一 方面 ，PowerPC 则 是 把 用 户 地 址 空间 划分 为 256MB (2” 字 节 ) 的 多 个 段 ， 如 图 A-7b。 
该 结构 允许 一 个 应 用 程序 寻 址 很 多 个 段 ， 尽 管 在 同一 时 刻 只 能 直接 访问 到 其 中 很 少 几 个 。 在 32 
位 寻 址 模式 下 ， 只 有 16 个 段 对 程序 可 见 ， 这 16 个 段 分 别 用 16 个 段 寄存 器 SRO - SR15 来 指向 。 
当前 可 见 的 段 形成 了 一 个 连续 的 32 位 有 效 地 址 空间 ， 地 址 的 高 4 位 指示 了 与 该 地 址 相关 联 的 段 
寄存 器 。 每 个 段 寄存 器 指向 一 个 256MB 的 段 ， 这 些 段 包含 在 一 个 非常 大 的 2” 字 节 的 地 址 空间 
中 ,被 称 为 虚 地 址 空间 。 

为 了 管理 和 保护 ， 存 储 器 还 可 以 被 分 区 。 典 型 的 被 管理 或 者 保护 的 最 小 分 区 粒度 是 一 个 页 ， 
包含 有 2 的 整数 次 宕 字 节 ， 比 如 4KB 大 小 。 一 个 用 户 地 址 空间 中 的 不 同 页 面 可 以 被 标记 具有 不 
同 的 访问 权限 ， 比 如 读 、 写 或 者 执行 的 权限 。 但 应 用 程序 通常 并 不 关心 页 面 的 准确 大 小 ， 它 只 有 
在 某 些 情况 下 才 注 意 到 页 面 大 小 ， 比 如 当 一 个 序列 的 访 存 越过 了 页 边界 ， 两 个 页 又 有 不 同 的 访 
问 权 限 ， 前 面 页 面 访问 是 合法 的 而 后 面 页 面 不 允许 这 种 访问 。 


A. 2.3 用 户 指令 


指令 是 将 保存 在 寄存 器 或 者 存储 器 中 的 数据 进行 转换 的 手段 ， 表 A-1 给 出 了 几 种 不 同类 型 指 
令 的 例子 。 指 令 通常 是 根据 指令 操作 中 用 到 的 资源 ， 特 别 是 存储 部 件 和 功能 单元 来 分 类 的 。 这 
样 ， 整 数 和 人 逻辑 操作 一 般 操作 通用 寄存 器 ,使 用 整数 算术 和 逻辑 运算 部 件 ; 存储 器 指令 操作 主 
存 ; 浮 点 指令 使 用 浮 点 寄存 器 和 浮 点 运算 部 件 。 此 外 ,还 有 一 类 指令 影响 程序 的 控制 流 而 不 影响 
数据 资源 的 内 容 : 分 支 和 跳 转 指令 。 


RAI 用 户 指令 示例 




















Memory Instructions Integer Instructions Floationg-Point Instructions Branch Instructions 
取 字 节 加 单 精度 加 跳 转 

取 字 比较 RFR 为 负 则 跳 转 

存 字 节 异 或 WF FI 跳 转 并 连接 

存 多 字 节 count leading zeros 转化 为 整 点 跳 转 到 子 程序 
取 双 字 带 符号 左 移 双 字 比较 返回 
存储 器 读 写 指令 


这 些 指 令 导 致 数据 从 寄存 器 到 存储 器 的 移动 (store 操作 ) 或 者 从 存储 器 到 寄存 器 的 移动 
(load 操作 ) 。 有 关 的 存储 器 位 置 在 指令 中 通过 它 的 地 址 来 指定 ， 这 个 地 址 可 能 是 由 指令 指定 的 
一 个 或 者 几 个 寄存 器 值 相 加 得 到 的 ， 也 可 能 是 由 指令 中 的 一 个 立即 数 〈 常 数 ) 加 上 一 个 寄存 器 
值得 到 的 。 这 个 被 算出 来 的 地 址 值 对 用 户 是 可 见 的 ， 通 常 被 称 为 虚 地 址 、 运 辑 地 址 或 者 有 效 地 
址 。 一 个 分 段 存储 器 中 的 地 址 可 以 被 分 为 两 部 分 ,一 部 分 指定 所 在 的 段 ， 一 部 分 作为 段 内 的 偏 


FERNE 329 











移 量 。 

整数 算术 逻辑 和 移 位 指令 
这 些 指令 对 整数 或 通用 寄存 器 执行 基本 操作 。 在 一 些 早期 的 CISC2ISA 中 ， 一 个 算术 逻辑 或 者 移 
位 指令 可 能 使 用 一 个 或 多 个 存储 器 位 置 作为 操作 数 ， 这 种 情况 下 处 理 器 在 执行 定点 操作 之 前 需 
要 先 完成 一 个 隐 式 存储 器 读数 而 且 / 或 者 在 之 后 有 一 个 隐 式 存储 器 存 数 操作 。 多 数 的 现代 ISA, 
特别 是 RISC?ISA， 则 把 从 存储 器 中 读 操 作 数 的 过 程 和 真正 执行 算术 、 逻 辑 和 移 位 操作 的 过 程 
分 开 。 ' 

浮 点 指令 

这 些 指 令 执行 浮 点 操作 ， 指 令 的 操作 数 一 般 (但 并 不 是 必须 ) 都 存放 在 特定 类 型 的 寄存 
器 一 一 浮 点 寄存 嚣 中。 在 Intel IA-32 指令 集中 ， 浮 点 寄存 器 被 组 织 为 一 个 栈 ， 大 多 数 浮 点 指令 只 
能 隐 式 地 通过 浮 点 栈 指针 来 访问 这 些 寄存 器 。 与 定点 指令 原则 性 的 差别 在 于 这 些 寄 存 器 中 的 值 
按照 特定 的 浮 点 格式 来 解释 ， 标 准 的 浮 点 格式 是 IEEE 浮 点 格式 ， 这 种 格式 不 但 规定 了 浮 点 数 编 
码 ， 还 规定 了 可 接受 的 浮 点 数 操作 结果 。 

分 支 和 跳 转 指令 

前 面 几 类 指令 都 会 改变 处 理 器 中 数据 单元 的 内 容 ， 而 分 支 与 跳 转 指令 只 是 简单 地 改变 控制 
流 。 在 存储 程序 (stored-program) 机 器 里 ， 通 过 改变 PC 值 ， 也 就 是 改变 下 一 条 被 取 指令 的 存储 
器 位 置 来 实现 这 种 改变 。 条 件 分 支 指令 测试 寄存 器 中 的 值 并 根据 结果 决定 是 否 跳 转 ， 这 个 被 测 
试 的 寄存 器 可 能 是 通用 寄存 器 也 可 能 是 专用 的 根据 其 他 指令 执行 结果 而 改变 的 条 件 码 寄 存 器 。 
ISA 还 包括 跳 转 指令 ， 它 们 与 分 支 指令 类 似 ， 但 是 无 条 件 ? 改 变 控制 流 ， 常 常用 于 将 控制 转移 到 
逻辑 上 不 同 的 男 一 代码 区 域 ， 比 如 子 程序 和 过 程 调用 。 有 时 跳 转 指令 的 目标 地 址 在 编译 的 时 候 
是 不 确定 的 ， 因 此 可 以 根据 一 个 寄存 器 的 内 容 来 执行 间接 跳 转 。 一 些 跳 转 指令 还 具有 副作用 ， 将 
紧 跟 其 后 指令 的 位 置 (PC 值 ) 保存 在 链接 寄存 器 中 ， 如 果 使 用 这 种 跳 转 并 链接 指令 来 调用 一 个 
过 程 ， 那 么 过 程 返 回 就 可 以 通过 间接 跳 转 到 链接 寄存 器 保存 的 PC 值 来 实现 。 


A.3 BRISA: 资源 管理 


SA 的 用 户 部 分 主要 用 于 完成 计算 工作 ， 而 ISA 的 系统 部 分 则 用 于 管理 系统 资源 。 操 作 系统 
接受 访问 或 改变 资源 的 请 求 ， 并 根据 它 本 身 良 定义 的 资源 管理 策略 来 服务 这 些 请 求 。 系 统 ISA 
包含 了 操作 系统 与 底层 硬件 的 通信 机 制 ， 操 作 系 统 正 是 通过 这 些 机 制 来 完成 请 求 的 服务 和 资源 
管理 决策 。 


A. 3. 1 特权 级 别 


一 个 现代 处 理 器 能 同时 支持 多 个 应 用 或 者 多 个 进程 ， 它 们 都 要 访问 系统 资源 ， 包 括 主 存 、 二 
级 存储 器 还 有 LO 系统 的 其 他 部 分 。 尽 管 许多 用 户 程序 可 以 同时 在 机 器 上 进行 操作 ， 但 任何 用 户 
程序 对 资源 的 使 用 都 应 该 对 其 他 程序 不 可 见 也 不 受 其 他 程序 对 资源 使 用 的 影响 ， 除 非 它 显 式 地 
授权 给 其 他 程序 。 这 种 保护 由 操作 系统 来 实现 ， 操 作 系统 同时 还 确保 资源 公平 地 在 所 有 用 户 程 
序 间 分 配 。 

为 完成 这 个 目标 ， 操 作 系统 必须 享受 与 用 户 程序 不 同 的 特权 ， 这 些 特权 一 般 包括 分 配 、 访 问 
和 修改 系统 中 的 物理 资源 。 通 过 ISA 中 定义 的 操作 模式 来 允许 对 系统 资源 的 特殊 权限 ， 某 些 资 


© 复杂 指令 集 计算 机 。 
O 精简 指令 集 计 算 机 。 
O 分 支 指令 与 跳 转 指令 的 区 别 并 不 通用 。 有 些 ISA 只 使 用 其 中 之 一 ， 而 其 他 一 些 SA 则 互 换 它们 的 含义 。 
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源 在 某 种 模式 下 可 访问 而 在 其 他 模式 下 则 不 允许 。 通 常 一 个 ISA 至 少 定义 了 两 种 模式 ， 一 种 系 
统 模式 ， 这 种 模式 下 软件 可 以 访问 所 有 资源 ;一 种 用 户 模式 ， 只 能 访问 一 些 受 限 的 资源 。 系 统 模 
式 有 时 也 被 称 为 超级 用 户 模式 、 核 心 模式 或 者 特权 模式 。 

许多 操作 系统 (包括 UNIX 和 它 的 派生 系统 ) 只 依赖 于 两 种 特权 级 别 。 而 另 一 方面 ，Intel 
IA-32 ISA 支持 多 达 四 种 级 别 ， 如 图 A-8。Windows 和 Linux 在 IA-32 上 实现 时 都 只 使 用 了 两 种 级 
别 ， 操 作 系 统 运行 在 核心 级 别 0， 用 户 程序 运行 在 级 别 3。 


用 户 模 式 





a) 两 级 特权 的 简单 系统 b ) Intel IA-32 允许 四 级 ， 操 作 系 统 核 心 运行 在 
最 核心 的 级 别 0， 用 户 程序 运行 在 级 别 3 


图 A-8 系统 中 的 特权 级 别 


在 任何 一 个 时 刻 操作 模式 都 是 系统 状态 的 一 部 份 ， 存 储 在 一 个 小 的 特殊 寄存 器 或 者 作为 一 
个 大 的 特殊 寄存 器 的 一 部 分 。 当 系统 只 有 两 级 权限 级 别 时 ， 对 模式 编码 仅 需要 一 位 。 对 模式 位 的 
修改 必须 严格 控制 ， 以 免 用 户 进程 可 以 随意 改变 系统 模式 从 而 获得 更 大 的 权限 。 一 个 受 控 的 权 
限 改 变 ,例如 为 了 执行 VO 操作 ， 通 常 是 显 式 地 通过 系统 调用 或 者 隐 式 地 通过 陷阱 来 实现 。 一 个 
系统 调用 指令 会 将 控制 转移 到 ISA 指定 的 地 址 (改变 PC 值 ) OS 设计 要 保证 这 个 特定 的 地 址 位 
于 OS 的 代码 段 。 在 控制 转移 的 同时 ， 权 限 被 自动 改 成 系统 模式 。 

一 些 ISA 包含 一 些 根据 当前 权限 级 别 产 生 不 同 效 果 的 指令 。 比 如 一 个 修改 特权 资源 的 指令 
当 处 理 器 在 用 户 模式 时 将 不 做 任何 操作 (就 如 同 no-op 指令 ) ， 从 而 一 个 被 禁止 的 操作 就 不 能 由 
用 户 来 执行 了 。 但 是 ， 正 如 第 8 章 描 述 的 那样 ， 从 虚拟 机 实现 的 观点 来 看 这 些 指令 导致 了 很 大 的 
问题 ， 更 好 的 方法 是 硬件 通过 陷阱 将 控制 从 那些 非法 指令 传递 给 操作 系统 ， 这 样 操作 系统 就 可 
以 采取 相应 的 动作 。 

在 后 面 几 节 里 我 们 简要 介绍 对 更 高 权限 的 操作 系统 可 见 的 系统 结构 状态 ， 并 更 详细 地 讨论 
如 何 使 用 系统 ISA 的 指令 来 管理 特权 硬件 资源 。 


A. 3.2 系统 寄存 器 体系 结构 


大 部 分 ISA 包括 了 特殊 的 寄存 器 来 帮助 进行 硬件 资源 管理 。 这 些 寄存 器 有 时 候 显 得 不 很 重 
要 ， 因 为 它们 并 不 暴露 给 用 户 程序 ， 而 且 编 译 器 也 经 常 不 使 用 它们 。 但 是 它们 在 系统 级 虚拟 机 实 
现 中 却 非 常 重要 ， 因 为 它们 常常 是 这 种 虚拟 机 实现 中 最 琼 手 问题 的 来 源 。 一 些 更 重要 的 寄存 器 
如 表 A-2 所 示 。 
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表 A-2 典型 的 系统 寄存 器 








IA-32 中 的 例子 
特定 模式 ; GRA TMH, IRR TM VO 系统 时 钟 


PowerPC 中 的 例子 
时 间 基 准 寄存 器 


数据 存储 中 断 寄存 器 
中 断 保存 /恢复 寄存 器 


机 器 状态 寄存 器 
存储 描述 寄存 器 
地 址 空间 寄存 器 

系统 时 钟 寄存 器 


这 个 寄存 器 记录 了 从 上 次 被 清 0 以 来 所 经 过 的 时 钟 咬 噶 数 。 一 个 时 钟 嘲 嗜 可 以 用 时 间 ( 毫 
秒 ) 或 者 处 理 器 时 钟 周期 来 度量 。 

陷阱 和 中 断 寄存 器 

这 些 寄存 器 记录 了 陷阱 和 中 断 事件 发 生 的 信息 ， 从 而 陷阱 或 者 中 断 处 理 代码 能 采取 相应 的 
动作 。 典 型 的 ， 对 每 一 个 陷阱 或 者 中 断 条 件 ， 当 产生 陷阱 或 者 中 断 时 这 些 寄存 器 中 都 有 相应 的 位 
会 被 置 位 。 

陷阱 和 中 断 屏蔽 寄存 器 

在 有 些 情况 下 处 理 器 应 该 不 可 被 中 断 ， 比 如 当 另 外 一 个 中 断 正 在 被 处 理 的 时 候 。 中 断 通常 
被 分 成 若干 级 别 ， 一 个 属于 更 高 级 别 的 中 断 比 低级 别 的 中 断 有 更 高 的 优先 权 。 在 执行 的 任何 时 
刻 ， 屏 项 寄存 器 都 指明 了 哪些 级 别 的 中 断 会 被 忽略 。 类 似 地 ， 软 件 也 希望 能 忽略 某 些 特定 的 陷阱 
条 件 ， 这 时 就 可 以 通过 陷 嘲 屏 酸 寄存 器 来 指定 哪些 需要 被 屏蔽 了 。 

地 址 转换 表 指 针 

逻辑 页 和 存储 器 段 到 真实 存储 器 的 映射 通常 存放 在 存储 器 驻 留 表 中 ， 这些 表 的 位 置 是 由 页 
表 和 /或 者 段 表 指针 寄存 器 指向 的 。 因 为 页 表 / 段 表 指 针 寄 存 器 被 用 来 管理 硬件 资源 ， 所 以 必须 控 
制 对 它们 的 访问 。 任 何 情 况 下 对 这 些 寄 存 器 的 写 都 只 能 由 操作 系统 来 完成 ， 而 且 很 多 情况 下 还 
必须 禁止 用 户 程序 读 这 些 寄存 器 。 例 如 ， 读 取 页 表 指 针 寄存 器 可 能 会 暴露 其 他 进程 的 属性 ， 这 可 
能 导致 潜在 的 安全 漏洞 。 而 且 ， 如 第 8 章 所 说 ， 在 用 户 模式 下 读 取 资 源 相 关 的 寄存 器 对 构建 系统 
虚拟 机 都 是 有 问题 的 。 


A.3.3 ISA 对 管理 处 理 器 资源 的 支持 


处 理 器 可 能 是 最 重要 的 系统 资源 ， 和 其 他 硬件 资源 一 样 ， 它 的 使 用 也 要 由 操作 系统 管理 。 但 是 
ISA 需要 对 此 作出 的 支持 却 极 少 。 首 先 ， 操 作 系统 必须 能 够 将 控制 交 给 用 户 进程 。 这 是 通过 系统 返 
回 指令 来 实现 的 ， 这 个 指令 导致 控制 流转 移 〈 跳 转 ) 到 用 户 程序 中 的 目的 地 址 ， 并 把 执行 模式 由 特 
权 模 式 改 为 用 户 模 式 。 其 次 ， 要 保证 最 终 恢复 对 处 理 器 的 控制 权 ， 操 作 系 统 可 以 设置 时 间 间 隔 计时 
器 ， 使 得 每 当时 间 间 隔 到 达 时 会 产生 中 断 ， 从 而 把 控制 权 交 还 给 操作 系统 (中 断 在 A 3.6 节 有 详细 
的 描述 ) 。 这 个 计时 器 可 能 是 一 个 结构 化 的 计数 器 ， 例 如 一 个 能 在 系统 模式 下 读 写 的 系统 寄存 器 。 
或 者 这 个 计数 器 可 以 被 构建 到 IO 系统 中 ， 通 过 类 似 于 访问 LO 设备 的 方式 来 读 写 它 。 当 用 户 进程 
执行 了 系统 调用 指令 或 者 产生 了 陷阱 或 中 断 的 时 候 ， 控 制 权 也 会 交还 给 操作 系统 。 

因此 ， 管 理 处 理 贺 资源 所 需 的 ISA 特征 包括 系统 调用 与 返回 指令 、 可 产生 中 断 的 时 间 间 隔 
计时 器 以 及 设置 它 的 方法 。 其 他 的 陷阱 和 中 汤 机 制 并 非 管理 处 理 器 资源 所 必须 的 ， 而 是 操作 系 
统 进入 特权 模式 来 处 理 其 他 资源 管理 的 途径 。 





系统 寄存 器 
系统 时 钟 寄 存 器 


陷阱 和 中 断 寄存 器 
陷阱 和 中 断 屏 项 寄存 器 
地 址 转换 表 指 针 



















无 ,通过 中 汤 表 间接 进行 

















EFLAGS 寄存 器 中 的 中 断 使 能 标志 








页 目录 基 址 (控制 寄存 器 3) 
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A.3.4 ISA 对 管理 存储 器 资源 的 支持 


到 目前 为 止 ， 系 统 ISA 中 最 广泛 的 部 分 都 是 和 存储 器 相关 的 。 存 储 器 体系 结构 包括 了 相当 
详细 的 用 来 跟踪 记录 存储 器 使 用 情况 的 数据 结构 (页 表 和 /或 段 表 ) ， 以 及 操作 这 些 数据 结构 的 
方法 。 最 核心 的 问题 是 实际 存储 器 容量 有 限 却 必须 分 配给 许多 程序 ， 而 每 个 程序 都 需要 体系 结 
构 允 许 的 逻辑 存储 器 空间 (通常 很 大 ) 。 一 般 来 说 ， 这 意味 着 实际 存储 器 必须 被 共享 ， 而 且 在 大 
多 数 时 候 一 个 进程 都 无 法 被 给 予 和 它 的 逻辑 地 址 空间 一 样 大 的 实际 存储 器 。 

系统 ISA 也 提供 了 保护 一 个 应 用 程序 使 用 的 存储 器 不 被 其 他 程序 破坏 的 方法 ， 那 就 是 ISA 
必须 限制 应 用 程序 只 能 访问 操作 系统 授权 它 访 问 的 区 域 ， 可 能 是 读 、 写 或 执行 存储 器 中 的 内 容 。 
在 某 种 意义 上 ， 这 种 机 制 也 能 用 来 保护 应 用 程序 不 被 本 身 破坏 。 例 如 ， 防 止 一 个 程序 bug 导致 的 
一 条 store 指令 对 存放 指令 的 存储 器 区 域 意外 地 修改 。 

图 A-9 显示 了 实际 存储 器 被 分 配给 两 个 程序 的 方法 ， 每 个 程序 都 有 自己 的 逻辑 存储 空间 。 每 
个 程序 的 一 些 部 分 被 分 配 了 实际 存储 器 而 另 一 部 分 却 没有 。 有 些 没有 分 配 到 实际 存储 器 的 逻辑 
存储 器 部 分 将 它们 的 内 容 存 放 在 后 备 存 储 器 中 一 一 通常 是 磁盘 ， 而 其 他 的 逻辑 存储 器 部 分 则 没 
有 被 用 到 。 操 作 系统 会 跟踪 记录 在 实际 存储 器 和 后 备 存储 器 中 的 逻辑 存储 器 部 分 。 操 作 系 统 根 
据 它 自己 内 部 的 存储 器 管理 策略 在 实际 存储 器 和 后 备 存 储 之 间 移 动 存储 内 容 。 因 此 ， 一 个 特定 
的 实际 存储 器 位 置 在 不 同 的 时 刻 能 表示 不 同 的 逻辑 存储 器 位 置 。 

程序 1 的 实际 存储 器 
逻辑 存储 器 








程序 2 的 
逻辑 存储 器 








图 A-9 逻辑 到 实际 存储 器 的 映射 。 一 些 逻 辑 区 域 被 映射 到 实际 存储 器 。 
另 一 些 存在 于 后 备 存储 上 ， 一 般 是 磁盘 
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通过 这 种 方法 程序 存储 器 就 成 为 了 虚拟 的 资源 。 用 户 进程 能 直接 访问 由 它 自己 的 逻辑 地 址 
空间 所 定义 的 存储 器 资源 ， 但 是 这 个 逻辑 地 址 空间 只 是 存储 器 的 一 个 虚拟 表象 。 实 际 的 真实 存 
储 器 使 用 一 种 完全 不 同 的 方式 来 分 配 。 正 是 由 于 这 个 原因 ， 所 以 这 样 的 系统 被 称 为 虚拟 存储 器 
系统 ， 而 逻辑 地 址 通常 被 称 为 虚 地 址 。 

为 了 把 逻辑 地 址 映射 成 实际 地 址 ， 两 种 存储 器 地 址 空间 一 般 都 被 划分 成 抉 。 有 两 种 通用 的 
方式 来 划分 ， 一 种 方式 是 块 可 以 划分 成 任意 大 小 ， 被 称 为 段 ; 另 一 种 方式 是 块 划分 成 固定 大 小 ， 
被 称 为 页 。 如 果 管 理 的 基本 单元 都 具有 相同 的 固定 大 小 ， 那 么 对 真实 存储 器 的 管理 会 变 简单 ， 所 
以 今天 所 有 的 ISA 都 使 用 分 页 的 方式 。 但 是 如 图 A-7b Stax, 一 些 ISA 在 页 的 上 面 加 上 了 段 的 管 
理 。 采 用 这 种 方式 时 ， 一 个 段 就 由 多 个 页 构成 。 

当 使 用 页 时 ， 逻 辑 地址 可 被 解释 为 两 部 分 ， 一 个 页 号 和 页 内 偏 移 量 。 例 如 ， 假 设 逻 辑 地 址 为 
32 位 ， 页 大 小 为 4KB WK 12 位 地 址 用 来 作为 页 内 偏 移 量 而 高 20 位 作为 页 号 。 

页 表 

为 了 支持 逻辑 存储 器 到 实际 存储 器 的 映射 ， 要 使 用 叫做 页 表 的 数据 结构 。 图 A-10 显示 了 一 
个 页 表 将 多 辑 页 映射 到 实 页 的 例子 ， 用 虚 地 址 的 页 号 作为 页 表 索 引 来 得 到 实 页 号 。 页 表 结构 能 
做 得 更 复杂 ， 但 这 个 例子 已 足以 说 明基 本 的 操作 过 程 。 这 个 表 的 每 个 表 项 都 包含 一 个 被 访问 的 
虚 页 的 实际 存储 器 位 置信 息 。 当 虚拟 存储 器 地 址 空间 比 实际 存储 器 空间 大 时 (通常 如 此 ) ， 一 些 
虚 页 可 能 不 会 被 映射 到 实际 存储 器 。 所 以 每 个 页 表 项 都 有 一 个 有 效 位 来 指示 该 页 是 否 被 映射 到 
实际 存储 器 。 注 意 ， 页 表 也 能 够 被 用 于 多 个 程序 间 共 享 的 数据 ， 如 果 相 同 的 实 页 面 被 映射 到 多 个 
共享 程序 的 虚 地 址 空间 。 

如 A.2.2 节 提 到 的 ， 通常 可 以 限制 对 一 个 应 用 程序 拥有 的 存储 器 位 置 的 访问 类 型 。 这 种 访 
问 保护 的 粒度 一 般 就 是 页 ， 所 以 页 表 的 表 项 需要 保存 访问 保护 的 信息 。 图 A-10 显示 的 页 表 中 就 
有 保护 域 (“prot”) 。 能 对 页 面 进行 哪 几 种 类 型 的 操作 是 由 程序 的 特权 级 别 决定 的 ， 例 如 是 处 于 
超级 模式 还 是 用 户 模式 。 通 常 控制 的 三 种 访问 类 型 是 读 、 写 和 执行 。 读 和 写 访问 是 在 load 和 
store 指令 执行 时 检查 的 ， 而 执行 访问 是 在 取 指 时 检查 的 。 一 种 指定 页 面 访问 权限 的 方法 是 设 定 
三 个 位 ， 分 别 对 应 于 读 、 写 和 执行 (R，W，E) 权限 。 注 意 一 个 页 面 的 访问 保护 不 是 静态 的 ， 
而 是 可 以 动态 变化 的 。 同 样 的 实 页 面 会 随 着 机 器 处 于 用 户 模式 还 是 系统 模式 会 有 不 同 的 保护 
级 别 。 

转换 查找 缓冲 

页 表 是 一 个 相当 大 型 的 数据 结构 ， 一 般 存 放 在 主 存 里 。 理 论 上 在 每 次 load store 和 指令 取 
指 时 都 要 用 到 页 表 。 实 际 这 样 做 会 很 慢 。 为 了 使 访 存 更 快 ， 用 一 个 被 称 为 转换 查找 缓冲 (TLB, 
也 称 为 快 表 〉 的 小 型 相 联 存储 结构 来 缓存 最 近 的 地 址 转换 数据 ， 如 图 A-11 所 示 。TLB 和 A. 1.2 
节 描 述 的 高 速 缓存 很 类 似 ， 也 同样 依赖 于 局 部 性 原理 。 当 一 个 地 址 需要 被 转换 时 ， 用 逻辑 地 址 的 
虚 页 号 来 相 联 索 引 访问 TLB 。 如 果 有 匹配 的 表 项 ， 这 个 表 返 回 逻 辑 地 址 对 应 的 实 页 号 。 如 局 部 
性 原理 所 展示 的 ， 在 程序 的 执行 过 程 中 所 访问 的 不 同 页 的 数量 是 很 小 的 而 且 页 的 变化 也 是 比较 
慢 的 ， 所 以 TLB 的 大 小 不 用 很 大 ， 这 样 访问 TLB 的 速度 就 能 比较 快 。 每 个 TLB 的 表 项 也 包括 从 
页 表 中 拷贝 来 的 页 保护 位 。 

当 用 一 个 页 地 址 来 访问 TLB 时 有 三 种 可 能 性 。 

。 有 一 个 TLB 项 相符 合 ， 而 且 该 项 的 保护 位 允许 所 请 求 的 访问 类 型 ， 这 被 称 为 TLB 命中 。 

这 是 通常 的 情况 ， 地 址 会 被 正确 转换 为 实地 址 。 在 很 多 微 体 系 结构 中 ， 高 速 缓存 的 访问 
与 TLB 的 访问 并 行进 行 ， 所 以 地 址 转换 过 程 只 会 导致 很 少 的 性 能 损失 。 
。 有 一 个 TLB 项 符合 ， 但 是 该 项 的 保护 位 不 允许 这 种 类 型 的 访问 。 这 种 情况 会 产生 一 个 访 


334 HRA 





问 异 常 ， 并 触发 到 操作 系统 的 陷阱 。 
虚 地 址 





通过 目地 址 的 这 实 页 号 与 偏 移 
些 域 进行 相关 查找 量 拼 合成 实地 址 


图 A-11 转换 查找 缓冲 (TLB) 的 结构 


。 没有 TLB 项 符合 该 虚 页 号 ， 这 被 称 为 TLB 缺失 。 有 两 种 原因 会 导致 TLB 缺失 。 一 是 地 
址 映射 存在 于 页 表 中 而 不 存在 于 TLB 中 ; 二 是 当前 的 引用 页 还 没有 被 映射 到 任何 实 页 
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面 。 第 一 种 情况 下 ， 硬 件 或 者 操作 系统 把 页 表 中 的 相关 映射 内 容 拷 贝 到 TLB ， 如 果 需 要 
还 要 先 山 除 原来 TLB 里 的 一 项 以 腾 出 空间 。 第 二 种 情况 下 ,会 产生 地 址 异常 ， 并 触发 到 
操作 系统 的 陷阱 。 操 作 系 统 使 用 一 个 页 面 蔡 换算 法 来 选择 替换 存储 器 中 的 一 个 实 页 面 ， 
并 从 后 备 存 储 器 中 读 人 被 请 求 的 新 页 面 。 如 果 被 替换 的 页 在 实际 存储 器 中 被 改动 过 ， 可 
能 还 要 把 该 页 的 内 容 写 回 到 后 备 存储 器 。 
页 表 与 TLB 的 交互 
页 表 和 TLB 都 是 地 址 转换 过 程 中 的 重要 部 分 ， 它 们 的 使 用 包括 了 硬件 和 软件 的 交互 。 实 
际 的 结构 化 的 软 硬 件 接口 可 能 出 现在 页 表 或 TLB 上 ， 具 体 由 ISA 决定 。 如 果 TLB 在 ISA 中 定 
义 了 ,那么 实际 的 页 表 是 作为 操作 系统 的 一 部 分 由 软件 来 实现 的 。 如 果 页 表 被 定义 为 ISA 的 
一 部 分 ， 那么 TLB 就 是 硬件 实现 的 一 部 分 ， 大 多 数 时 候 对 软件 是 透明 的 。 在 后 面 这 种 情况 下 ， 
有 时 候 JSA 会 提供 一 条 “清除 TLB” 的 指令 而 不 是 让 TLB 完全 透明 。 这 两 种 情况 如 表 A-3 
所 示 。 
RAS 比较 结构 化 的 TLB 与 结构 化 的 页 表 





结构 化 的 TLB 结构 化 的 页 表 
TLB 表 项 格式 在 指令 集中 定义 留 给 硬件 实现 
TLB 配置 在 指令 集中 定义 留 给 硬件 实现 
页 表 表 项 格式 留 给 操作 系统 实现 在 指令 集中 定义 
页 表 配 置 留 给 操作 系统 实现 在 指令 集中 定义 
TLB 缺失 向 操作 系统 报告 TLB 出 错 硬件 访问 页 表 
页 表 缺 失 由 TLB 出 错 处 理 软件 检测 报告 页 面 出 错 
TLB 中 的 新 表 项 由 操作 系统 生成 由 硬件 生成 
页 表 中 的 新 表 项 由 操作 系统 生成 由 操作 系统 生成 


采用 结构 化 页 表 ，ISA 定义 了 特定 的 方法 来 实现 虚 地 址 到 实地 址 的 映射 ， 也 指定 了 每 个 页 表 
项 的 格式 。 页 表 本 身 一 般 都 在 存储 器 中 ， 页 表 指 针 寄存 融 指 向 了 页 表 的 基 址 ， 也 就 是 第 一 项 的 地 
址 。 如 果 一 个 被 访问 的 虚 页 在 页 表 中 没有 的 话 ， 即 有 效 位 是 错 的 ， 会 产生 一 个 页 面 失效 并 将 控制 
转移 到 ISA 指定 的 一 个 地 址 ,在 这 个 地 址 存放 了 页 面 失效 处 理 代码 (这 是 操作 系统 的 一 部 分 ) 。 
ISA 还 指定 了 系统 应 该 在 什么 位 置 存放 访问 页 的 信息 。 例 如 ,产生 失效 的 地 址 会 被 存放 到 一 个 
ISA 指定 的 控制 存储 器 中 。 

采用 结构 化 TLB, ISA 定义 了 TLB 的 大 小 、 格 式 和 访问 方法 ， 页 表 则 是 操作 系统 实现 的 一 
部 分 。 硬 件 实现 并 不 知道 页 表 的 存在 。ISA 提供 了 特殊 的 指令 允许 操作 系统 对 TLB 表 项 进行 读 
写 。 如 果 某 个 地 址 在 TLB 中 不 存在 ， 那 么 硬件 会 采取 与 页 失效 处 理 类 似 的 动作 ， 即 在 某 个 控 
制 寄存 器 中 保存 错误 地 址 然后 跳 转 到 ISA 指定 的 存储 器 地 址 去 。 操 作 系统 检查 它 的 页 表 ， 如 
果 有 必要 的 话 还 从 辅 存 中 访问 该 页 ， 当 该 页 面 在 实际 存储 器 中 存在 时 ， 用 相关 信息 更 新 TLB。 

如 果 想 了 解 更 多 关于 地 址 转换 的 细节 ， 有 兴趣 的 读者 可 以 参考 Jacob 和 Mudge (1998) 的 
文章 。 


A. 3.5 管理 输入 /输出 资源 


通常 ISA 中 处 理 WO 的 部 分 都 会 比较 少 ， 这 是 因为 V0 设备 的 种 类 很 多 ,而 且 0 管理 操作 
相对 不 频繁 ， 所 以 更 适合 用 软件 特别 是 操作 系统 软件 来 处 理 LO。ISA 只 需要 提供 一 个 寻 址 WO 
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设备 并 传送 数据 的 机 制 即 可 。 

一 些 ISA 提供 了 显 式 的 /O 指令 。 这 些 指 令 格式 一 般 和 load store 指令 相似 ， 但 地 址 完全 与 
主 存储 器 地 址 分 离 。 该 地 址 指定 了 一 个 特定 的 设备 〈 或 者 是 作为 设备 控制 器 一 部 分 的 一 个 寄存 
BB). VO 指令 的 执行 会 导致 处 理 器 产生 相应 的 数据 和 地 址 信号 ， 而 系统 设计 师 负责 使 用 这 些 信 
号 去 连接 IO 设备 ， 例 如 通过 一 个 总 线 ， 还 要 提供 LO 信和 号 规范 给 操作 系统 程序 员 。IBM 的 Sys- 
tem/360 和 它 的 后 继 系 列 ， 还 有 Intel 14-32 都 是 提供 这 种 IO 指令 的 ISA 的 例子 。 

很 多 现代 处 理 器 使 用 另 一 种 LO 的 方式 ， 称 为 存储 器 映射 IO， 有 时 附加 上 IO 指令 。 使 用 
存储 器 映射 IO 时 ， 一 段 特 定 的 实际 存储 器 地 址 空间 被 保留 用 来 寻 址 VORA ( 见 图 A-3)。 这 
些 地 址 不 指向 实际 存储 器 位 置 ， 对 这 些 地 址 的 load 和 store 会 被 存储 器 控制 器 解释 为 对 0 的 命 
令 。 不 同 的 存储 器 映射 地 址 被 用 来 给 不 同 的 VO 设备 发 送 命令 ， 或 用 来 给 同一 个 设备 发 不 同 
的 请 求 。 

为 了 在 通用 计算 机 系统 中 保护 VO 资源 ，L0O 指令 通常 是 特权 指令 ， 只 能 被 操作 系统 使 
用 。 类 似 地 ， 对 于 存储 器 映射 XO， 这 些 用 于 LO 的 实际 存储 器 地 址 不 会 被 映射 到 用 户 可 访问 
的 页 ， 所 以 只 有 操作 系统 能 访问 到 它们 。 由 于 只 有 操作 系统 才能 执行 VO 操作 ， 用 户 程序 要 
访问 VO 得 调用 操作 系统 函数 ， 该 函数 首先 检查 用 户 程 序 是 否 可 以 访问 IO， 再 使 用 IO 指令 
来 完成 请 求 。 

最 后 ， 中 断 是 大 部 分 VO 结构 的 一 部 分 。 它 被 VO 系统 用 来 通知 操作 系统 ， 强 制 将 控制 转移 
到 操作 系统 中 断 处 理 程序 。 当 所 请 求 的 VO 操作 完成 后 或 者 出 现 一 些 情况 ， 如 IO 设备 错误 ， 
VO 系统 可 以 中 断 操作 系统 来 获取 响应 。 中 上 断 会 在 后 面 一 节 详细 介绍 。 


A. 3.6 陷阱 与 中 断 


陷阱 与 中 断 是 一 种 重要 的 机 制 ， 用 来 在 一 些 需 要 及 时 响应 的 事件 发 生 时 把 控制 权 转交 给 操 
作 系 统 。 因 为 它们 经 常 要 改变 特权 模式 并 穿越 保护 边界 ， 所 以 在 虚拟 机 实现 时 要 认真 考虑 。 

陷阱 是 由 一 条 指令 执行 产生 的 副作用 导致 的 控制 权 转 移 。 陷 阱 通常 由 一 个 异常 条 件 触发 ， 
一 般 是 在 指令 执行 过 程 中 出 现 的 不 寻常 条 件 ， 例 如 算术 溢出 、 页 失效 、 存 储 器 访问 超越 权限 或 者 
非法 的 指令 编码 等 等 。ISA 通常 指定 和 每 条 程序 相关 联 的 各 种 异常 条 件 。 

中 断 的 原因 则 和 特定 指令 的 执行 没有 关系 ， 它 是 由 正在 运行 的 进程 外 部 的 事件 引起 的 。 比 
如 处 理 器 外 事件 导致 的 LO 中 断 ， 操 作 系统 指定 的 一 个 时 间 间 隔 结束 后 产生 的 信号 导致 的 定时 
中 断 。 

如 A. 3.2 节 所 述 ，ISA 一 般 都 会 提供 一 种 禁止 一 个 或 一 类 陷阱 的 机 制 ， 通 常 通过 屏蔽 寄存 器 
的 某 些 位 来 实现 。 但 不 是 所 有 的 陷阱 都 可 以 被 屏蔽 ， 比 如 禁止 页 面 失效 就 没有 太 大 的 逻辑 意义 ， 
所 以 就 没有 屏 项 位 和 页 失效 相关 联 。 还 有 ， 一 些 陷 阱 可 能 在 用 户 态 被 禁止 ， 比 如 一 个 应 用 程序 在 
出 现 算术 操作 溢出 时 并 不 想 采取 什么 特别 的 动作 。 其 他 的 陷阱 ， 如 非法 存储 器 访问 ， 可 能 只 在 系 
统 模式 被 禁止 。 通 常 有 两 个 不 同 的 屏 项 寄存 器 ， 一 个 只 能 在 超级 用 户 模 式 下 被 改写 而 另 一 个 在 
任何 模式 下 都 可 以 修改 。 

如 果 一 个 异常 条 件 发 生 了 ， 陷 阱 控制 寄存 器 的 相应 陷 愤 位 会 被 置 位 。 如 果 对 应 的 陷阱 屏 项 
位 被 置 位 那么 这 个 陷阱 被 禁止 ， 不 会 产生 任何 操作 。 而 如 果 陷 阱 屏蔽 位 没有 被 置 位 的 话 ， 会 产生 
下 面 一 系列 操作 : 

1. 指令 执行 被 暂时 中 断 ， 处 理 器 会 进入 一 个 关于 产生 该 陷阱 指令 的 “精确 ”状态 ; 

。 所 有 在 该 指令 之 前 的 指令 要 被 完成 并 保证 所 有 指定 寄存 器 和 存储 器 的 更 改 。 

© 根据 ISA 的 规定 ， 该 指令 要 么 继续 执行 完 ( 比如 在 算术 溢出 异常 时 ) ， 要 么 不 要 修改 任何 
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机 器 状态 〈 比 如 在 页 面 失效 异常 时 )。 

© 在 该 指令 之 后 的 所 有 指令 不 能 改变 任何 机 器 状态 〈 寄 存 器 或 存储 器 ) o 

2. 在 保证 精确 的 异常 状态 后 ， 当 前 执行 指令 的 PC 值 会 被 保存 到 一 个 ISA 指定 的 位 置 ， 可 能 
是 一 个 控制 寄存 器 也 可 能 是 一 个 特别 的 存储 器 位 置 。 全 部 或 部 分 寄存 器 〈 通 用 和 控制 寄存 器 ) 
的 值 可 能 要 由 硬件 保存 起 来 。 现 代 的 RISC 处 理 器 是 让 陷阱 或 中 断 处 理 软件 来 保存 这 些 寄 存 
器 的 。 

3. 处 理 器 进入 一 个 特权 模式 并 跳 转 到 ISA 规定 的 一 个 存储 器 位 置 。 通 常 这 个 地 址 在 操作 系 
统 中 ， 所 以 在 这 一 点 操作 系统 获得 了 处 理 器 的 控制 权 。 

4. 操作 系统 会 保存 当前 陷阱 进程 所 有 未 被 硬件 保存 的 剩余 关键 状态 信息 ， 如 寄存 器 。 

5. 操作 系统 代码 可 能 直接 在 这 个 时 候 就 处 理 该 陷阱 ， 也 可 能 进一步 分 析 情 况 以 决定 专门 处 
理 该 陷阱 条 件 的 代码 地 址 。 这 些 陷 阱 处 理 程序 可 能 是 操作 系统 代码 ， 而 在 某 些 情况 下 是 用 户 程 
序 代码 ， 比 如 在 算术 溢出 时 。 在 用 户 进程 定义 了 陷阱 处 理 代 码 的 情况 下 ， 操 作 系统 将 控制 权 交还 
给 用 户 陷阱 处 理 代码 。 

6. 所 有 的 陷阱 处 理 完 成 后 ， 操 作 系统 (或 用 户 陷阱 处 理 程序 ) 会 根据 开始 保存 的 信息 恢复 
处 理 器 的 精确 状态 ， 并 跳 回 到 用 户 程序 中 产生 例外 的 地 址 。 

在 例外 产生 的 时 候 构建 精确 的 系统 状态 是 保证 程序 行为 确定 性 的 方法 。 但 这 种 要 求 给 大 多 
数 的 ISA 实现 都 带 来 了 很 大 的 困难 ， 对 虚拟 机 实现 也 如 此 。 一 些 ISA 对 一 些 特定 异常 放松 了 这 个 
BER, PAM PowerPC 在 普通 操作 的 浮 点 异常 时 就 不 需要 产生 精确 的 状态 。 但 为 了 调试 ， 它 还 是 提 
供 了 一 个 可 以 报告 精确 异常 状态 的 模式 。 

ISA 还 提供 了 一 类 指令 来 通过 类 似 陷阱 的 机 制 将 控制 权 交 回 给 操作 系统 。 和 分 支 指 令 一 样 ， 
这 些 陷 阱 也 是 有 条 件 触 发 的 。 一 个 重要 的 显 式 陷 阱 就 是 通过 系统 调用 指令 来 触发 。 当 一 个 程序 
需要 操作 系统 提供 服务 时 (例如 LO 操作 ) 就 执行 系统 调用 指令 。 系 统 调用 触发 的 陷阱 执行 的 
动作 和 刚才 讲 到 的 其 他 陷阱 相似 ， 主 要 增加 的 是 用 户 要 在 寄存 器 或 特定 的 存储 器 块 指定 变量 和 
参数 以 便 操 作 系 统 确切 知道 所 请 求 的 服务 。 这 样 的 约定 一 般 不 是 ISA 的 一 部 分 ， 而 是 由 系统 的 应 
用 程序 二 进 制 接口 (ABI) 规定 的 。 

中 断 的 处 理 方式 和 陷阱 类 似 ， 在 中 断 时 也 要 产生 精确 的 机 器 状态 。 但 因为 中 断 是 外 部 产生 
的 ， 在 确定 当前 进程 被 中 断 并 将 控制 返回 给 操作 系统 的 精确 位 置 时 实现 上 可 以 有 灵活 性 。 

和 陷阱 一 样 ， 中 断 也 可 以 通过 特殊 控制 寄存 器 中 的 屏蔽 位 来 禁止 。 屏 项 中 断 是 很 有 用 的 ， 
因为 有 时 系统 软件 没 法 干净 利落 地 处 理 中 断 。 比 如 一 个 中 断 刚刚 发 生 而 且 软 件 正 在 处 理 它 时 
又 发 生 了 另 一 个 中 断 。 屏 项 也 可 以 用 来 给 中 断 赋予 不 同 的 优先 级 ， 低 优先 级 的 中 断 可 以 被 高 
优先 级 的 中 断 屏 藤 。 和 陷阱 情况 一 样 ， 有 些 与 真实 的 处 理 器 环境 相关 的 中 断 是 不 能 被 屏蔽 的 ， 
比如 电源 故障 或 者 温度 过 高 中 断 ， 因 为 它们 需要 马上 被 处 理 。 大 多 数 其 他 与 VO 相关 的 中 断 
是 可 屏蔽 的 。 


A.4 操作 系统 组 成 


操作 系统 是 复杂 的 软件 集合 ， 负 责 管 理 系统 资源 和 处 理应 用 程序 提交 的 资源 使 用 服务 请 求 。 
一 个 典型 的 操作 系统 被 划分 为 以 下 几 个 主要 部 分 : 处 理 器 调度 、 存 储 器 管理 和 JIA0O。 图 A-12 显 
ANT Linux 操作 系统 的 主要 模块 ， 包 括 它 的 各 种 接口 一 一 系统 调用 接口 和 设备 驱动 接口 。 以 下 各 
节 描 述 了 操作 系统 管理 主要 系统 资源 的 方法 。 
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进程 控制 子 系统 









图 A-12 Linux 体系 结构 
A.4.1 处 理 器 管理 


操作 系统 用 “分 时 ”方法 来 让 系统 中 的 多 个 活动 进程 共享 处 理 器 。 它 使 用 了 一 个 调度 算法 ， 
通常 是 基于 优先 级 的 算法 ， 来 决定 哪个 进程 应 该 被 执行 和 执行 多 和 久 。 调 度 器 维护 了 一 个 就 绪 队 
列 来 保存 那些 已 经 准备 好 可 以 被 执行 的 进程 的 信息 。 当 一 个 处 理 器 可 用 时 ， 调 度 回 就 从 就 绪 队 
列 中 选择 一 个 进程 ， 并 设置 时 间 间 隔 定时 器 来 决定 这 个 进程 应 该 被 执行 多 久 ， 然 后 跳 转 到 这 个 
进程 去 执行 。 

如 果 一 个 用 户 进程 产生 了 一 个 被 允许 的 陷阱 条 件 或 者 执行 了 一 个 系统 调用 指令 ， 控 制 就 会 
被 交还 给 操作 系统 。 否 则 这 个 进程 就 会 继续 执行 直到 时 间 间 隔 定 时 器 计数 超出 ， 这 时 也 会 产生 
一 个 中 断 到 操作 系统 。 在 一 个 陷阱 事件 中 ， 操 作 系统 会 调用 相应 的 陷阱 处 理 程 序 (或 者 可 能 直 
接 终止 该 进程 ) 。 如 果 是 一 个 系统 调用 或 者 其 他 需要 操作 系统 服务 的 情况 ， 比 如 0 请 求 或 者 一 
个 页 失效 ， 操 作 系统 会 产生 需要 的 VO 操作 并 把 这 个 进程 从 就 绪 队 列 中 移出 。 当 服务 完成 时 ， 比 
如 一 个 IO 设备 完成 了 它 的 操作 ， 这 时 会 再 产生 一 个 中 断 ， 操 作 系 统 又 会 把 这 个 进程 重新 放 回 就 
绪 队 列 。 


A. 4.2 存储 器 管理 


存储 器 管理 要 实现 在 系统 中 运行 的 多 个 进程 间 共 享 实 际 存储 器 。 存 储 器 管理 器 通过 页 表 和 / 
或 TLB 实现 硬件 和 用 户 进 程 间 的 交互 ， 如 A. 3.4 节 所 述 。 当 一 个 进程 产生 了 一 个 页 或 TLB 失效 
时 ,操作 系统 将 接管 工作 ， 如 果 TLB 是 结构 化 的 将 根据 页 表 更 新 TLB， 否 则 将 调度 磁盘 LO 操作 
从 后 备 存储 器 中 获取 该 页 。 在 大 多 数 情 况 下 ， 操 作 系 统 也 会 预 取 一 定数 量 的 相 邻 页 面 存放 在 一 
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个 缓存 中 ， 基 于 它们 马上 会 被 用 到 的 预测 。 





操作 系统 根据 局 部 性 原理 试图 为 每 个 进程 提供 它们 正 用 到 的 那些 页 (也 被 称 为 进程 的 工作 
和 集 ) 。 好 的 页 面 替 换算 法 ， 比 如 最 近 最 少 使 用 算法 (LRU) 的 变种 ， 能 减少 进程 产生 的 页 面 失 


效 数 。 
A. 4.3 LO 管理 


如 前 所 述 ， 操 作 系 统 抽 象 化 了 硬件 设备 的 大 部 分 细节 ， 并 使 这 些 VO 设备 能 通过 一 个 良 定义 
的 接口 来 访问 。 如 图 A-13 所 示 ， 有 两 个 主要 接口 在 程序 请 求 VO 服务 的 时 候 起 作用 。1O 服务 
通过 系统 调用 来 请 求 ， 使 得 控制 权 回 到 操作 系统 。 操 作 系 统 本 身 则 使 用 一 个 接口 来 调用 一 组 软 
件 函 数 集 ， 这 些 函 数 把 通用 的 硬件 请 求 转换 为 硬件 设备 特定 的 命令 。 这 一 层 被 称 为 设备 驱动 层 ， 


到 这 一 层 的 接口 则 是 通过 设备 驱动 调用 。 

设备 驱动 方法 是 实现 操作 系统 和 硬件 设备 交互 的 常用 技 
术 。 设 备 驱动 关注 于 执行 VO 事务 的 设备 特定 的 特性 。 比 如 ， 
当 一 个 文件 系统 使 用 一 个 块 设备 接口 来 写 磁盘 时 ， 这 个 设备 
驱动 程序 把 设备 无 关 的 请 求 转换 为 相应 的 特定 请 求 来 控制 系 
统 中 物理 配置 的 磁盘 控制 器 芯片 。 这 个 特定 的 请 求 然后 则 通 
过 IO 指令 或 者 存储 器 映射 的 存 取 指 令 传送 给 VO 设备 。 

在 Linux 中 有 两 种 类 型 的 设备 驱动 程序 一 一 字符 设备 驱动 
程序 和 块 设备 驱动 程序 。 字 符 设备 驱动 直接 与 用 户 程序 通信 ， 
中 间 没 有 缓冲 。 终 端 是 一 个 字符 设备 驱动 的 例子 ， 它 是 一 次 
一 个 字 节 的 方式 在 设备 驱动 程序 和 硬件 之 间 通 信 。 与 之 相反 
的 是 块 驱动 程序 ， 它 在 驱动 程序 和 硬件 间 使 用 更 大 粒度 的 通 
信 ， 比 如 磁盘 。 在 这 种 情况 下 ， 用 户 程 序 通过 一 个 为 块 设备 
数据 传输 保留 的 区 域 来 存 取信 息 。 


A.5 操作 系统 接口 


我 们 现在 来 考虑 进程 向 操作 系统 请 求 服务 和 管理 功能 的 
方法 。 因 此 我 们 把 注意 力 集中 于 图 1-4 的 接口 2 和 接口 3 上 。 
这 两 个 接口 与 用 户 模 式 的 ISA 结合 起 来 组 成 了 应 用 二 进 制 接 
口 和 应 用 程序 接口 。 应 用 二 进 制 接口 是 最 有 意思 的 ， 因 为 它 
是 与 操作 系统 的 直接 接口 。 应 用 程序 接口 也 很 有 意义 ， 因 为 





用 户 应 用 程序 


系统 调用 


操作 系统 
设备 驱动 调用 





物理 存储 器 和 IO 操作 


硬件 


图 A-13 LO 操作 相关 的 接口 


大 多 数 程序 访问 应 用 二 进 制 接口 只 能 通过 调用 那些 组 成 应 用 程序 接口 的 库 来 实现 。 

很 多 应 用 二 进 制 接口 中 指定 的 函数 通过 操作 系统 进行 硬件 资源 管理 。 如 前 面 讨论 的 ， 进 入 
操作 系统 的 人 口 能 通过 陷阱 、 中 断 或 者 系统 调用 指令 发 生 。 陷 阱 和 中 断 在 应 用 二 进 制 接口 中 的 
抽象 一 般 被 称 为 “信号 "， 将 在 A. 5.4 节 描 述 。 一 个 在 Linux 操作 系统 中 通过 应 用 程序 接口 产生 


的 系统 调用 如 下 所 示 。 


#include <syscall.h> 
extern int syscall {int,...); 
int file_close (int filedescriptor) 
{ 
return syscall (SYS_close, filedescriptor); 


} 
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系统 调用 的 第 一 个 参数 是 一 个 统一 的 标识 数字 ，Linux 内 核 使 用 这 个 数字 作为 系统 调用 入 口 
表 的 索引 。 表 中 的 每 个 表 项 指出 了 特定 系统 调用 驻 留 在 内 存 中 的 地 址 ， 同 时 还 指出 了 必须 传 给 
它 的 参数 个 数 。ABI 中 系统 调用 支持 的 参数 个 数 通 常 依赖 于 ISA。 例 如 在 Intel 的 IA-32 结构 中 ， 
可 用 的 硬件 寄存 器 数目 限制 了 参数 的 数量 最 多 为 5 个 ， 再 加 上 系统 调用 号 作为 第 一 个 参数 。 不 过 
一 个 寄存 器 可 以 指向 主 存 中 的 一 个 数据 结构 ， 这 个 结构 可 以 存放 更 多 参数 相关 的 信息 。 不 同 的 
系统 调用 可 根据 它们 管理 的 硬件 资源 性 质 来 分 类 。 下 面 我 们 以 Linux 操作 系统 为 例 说 明 这 些 
分 类 。 


A. 5.1 进程 管理 系统 调用 


这 一 类 系统 调用 用 来 创建 新 进程 、 终 断 进 程 ， 还 可 以 用 于 管理 系统 中 运行 进程 的 各 个 属性 。 
例如 Linux 的 fork( ) 系统 调用 ,创建 一 个 被 称 为 子 进 程 的 新 进程 ， 这 个 进程 是 它 的 父 进程 的 完 
全 拷贝 ， 除 了 标识 进程 中 号 以 外 。exec( ) 系统 调用 (或 者 它 的 各 种 变 体 ) 用 于 在 当前 虚 地 址 
空间 加 载 并 执行 一 个 程序 。 所 以 开始 一 个 新 进程 通常 由 fork 和 紧 跟 其 后 的 exec 来 完成 。 一 个 进 
程 会 一 直 执 行 直 至 被 终止 ， 这 种 终止 可 以 是 自愿 的 ， 通 过 一 个 exit( ) 系统 调用 ; 也 可 能 是 非 自 
愿 的 ， 通 过 接受 到 一 个 信和 号 (会 在 后 面 详细 说 明 )。 父 进程 可 以 用 wait( ) 系统 调用 来 判断 一 个 
子 进程 是 否 已 被 终 断 。 其 他 与 进程 相关 的 系统 调用 包括 sleep( ) ， 一 个 进程 能 使 用 它 来 自愿 放弃 
一 段 时 间 对 处 理 器 的 占用 ; 还 有 wakeup( ) 调用 ， 会 提供 一 个 信和 号 来 唤醒 睡眠 的 进程 。 还 有 其 他 
的 一 些 系 统 调用 ， 比 如 setpriority( ) 和 getrusage( ) ， 能 设置 进程 的 参数 或 提供 一 个 进程 所 使 用 资 
源 的 信息 。 


A. 5.2 存储 器 管理 系统 调用 


计算 机 系统 为 每 个 进程 都 提供 了 由 操作 系统 管理 的 虚 地 址 空间 。 尽 管 这 些 虚 地 址 空间 属于 
用 户 程序 ， 但 对 地 址 空间 的 管理 很 大 程度 上 仍然 由 操作 系统 控制 。 例 如 ， 用 户 使 用 malloc( ) 这 
个 API 函数 来 请 求 一 块 内 存 块 ， 该 程序 使 用 复杂 的 算法 来 优化 地 址 空间 的 使 用 。mailoc( ) 实际 
上 是 请 求 一 个 系统 调用 sbrk( ) ， 来 确保 数据 区 (也 称 为 堆 ) 足够 大 使 得 分 本 成功。 用户 使 用 另 
一 个 库 函 数 ，free( ) ,来 释放 地 址 参数 指向 的 内 存 区 。 用 户 也 可 以 使 用 mprotect( ) 系统 调用 来 
改变 它 自己 地 址 空间 中 一 些 页 面 的 保护 状态 。 例 如 应 用 程序 希望 保护 自己 的 一 个 数据 区 不 被 自 
己 修 改 ， 可 以 调用 mprotect( ) 并 把 包含 该 数据 区 的 页 面 设置 为 只 读 (read-only) 。 

多 个 需要 互相 通信 的 进程 经 常会 通过 共享 内 存 段 来 实现 通信 。shmget( ) 这 样 的 系统 调用 允 
许 一 个 进程 虚 地 址 空间 的 某 个 内 存 段 被 映射 到 另 一 个 进程 的 虚 地 址 空间 。 也 就 是 说 ， 两 个 进程 
在 它们 的 页 表 中 映射 到 相同 的 存储 器 区 域 。 


A. 5.3 MO 系统 调用 


一 个 在 操作 系统 控制 下 运行 的 程序 不 直接 调用 设备 驱动 程序 中 的 功能 ， 而 是 通过 系统 调用 
接口 产生 一 个 设备 无 关 的 请 求 ， 比 如 open( ) 或 read( ) 。 如 图 A-13 所 示 ， 把 操作 系统 的 任务 和 
设备 驱动 程序 的 任务 区 分 开 ，, 使 得 在 给 计算 机 系统 增加 新 的 设备 时 不 用 改变 操作 系统 。 

Linux 下 的 用 户 程序 使 用 通用 的 文件 系统 命令 (如 open( ) read(), write(), close() 等 ) 
与 内 核 进行 通信 。open( ) 命令 将 一 个 文件 描述 符 与 一 个 设备 相关 联 ， 该 设备 已 经 被 安装 于 系统 
中 并 有 一 个 文件 系统 的 名 字 ， 比 如 /dev/abc。 一 个 程序 调用 “虚拟 文件 系统 切换 ”来 注册 这 个 设 
备 并 允许 映射 read( ) 请 求 ， 例如， 通过 与 /dev/abc 相关 联 的 设备 驱动 程序 中 的 相应 功能 函数 ， 
如 图 A-14 所 示 。 
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图 A-14 Linux VO 编程 接口 


A. 5.4 信号 : 抽象 异常 条 件 


如 前 所 述 ， 一 个 ISA 支持 陷阱 和 中 断 。 在 Linux 和 其 他 UNIX 系统 中 ， 采 用 信号 机 制 使 得 陷 
阱 和 中 断 对 进程 可 用 ， 信 和 号 是 通过 信号 处 理 程序 (signal handler) 异步 分 发 给 应 用 程序 的 。 系 统 
定义 的 默认 信和 号 处 理 程序 会 在 接收 到 信和 号 时 执行 默认 的 操作 ， 这 些 默认 的 操作 可 能 停止 这 个 进 
程 ， 或 者 在 结束 这 个 进程 的 同时 转 储 内 核 (存储 器 ) ， 或 者 忽略 这 个 信号 。 但 是 ， 用 户 程 序 可 以 
通过 sigvec() 系统 调用 来 覆盖 默认 的 操作 。 如 果 这 个 应 用 程序 要 执行 特定 的 操作 ， 它 可 以 触发 
一 个 信号 处 理 程序 ， 该 处 理 程 序 明确 指定 了 具体 操作 。 几 乎 所 有 的 信和 号 都 可 以 被 进程 忽略 ， 唯 一 
的 例外 是 SIGSTOP 和 SIGKILL 信号 ， 这 两 个 信号 为 用 户 或 系统 提供 了 一 种 停止 或 结束 一 个 失控 
进程 的 方法 。 

信和 号 传送 给 进程 有 两 种 方法 。 可 能 是 由 于 硬件 陷阱 或 中 断 ， 或 者 由 别 的 进程 在 软件 中 产生 ， 
例如 通过 kill( ) 系统 调用 。 与 硬件 中 断 类 似 ， 信 和 号 也 可 以 被 进程 屏 项 。 如 果 一 个 信号 到 达 且 该 
信和 号 位 于 屏蔽 集合 ， 会 在 待 响 应 信和 号 列表 中 记录 下 来 ， 但 不 执行 任何 操作 ， 直 到 该 信号 被 解除 屏 
藏 。 可 以 使 用 sigblock() 系统 调用 将 一 个 信号 加 和 人 到 屏蔽 列表 中 ， 还 可 以 使 用 sigsetmask( ) A 
统 调用 来 置 位 整个 屏蔽 集 。 在 信号 被 处 理 后 可 以 使 用 sigreturn( ) 系统 调用 来 恢复 正常 执行 。 


A.6 系统 初始 化 


ISA 的 一 个 经 常 被 忽视 的 方面 是 系统 初始 化 ， 它 从 机 器 上 电 或 重启 动 开 始 到 应 用 程序 准备 执 
行为 止 。 但 是 ， 在 设计 系统 虚拟 机 时 它 是 一 个 要 被 考虑 的 重要 因素 ， 因 为 在 主机 开始 一 个 新 的 系 
统 虚 拟 机 时 ， 必 须要 完整 地 重 现 这 些 操 作 。 

用 于 描述 系统 初始 化 过 程 的 术语 是 引导 (系统 由 引导 程序 来 自 举 )。3 引 导 包 括 一 系列 动作 ， 
每 个 动作 启动 一 部 分 系统 能 力 而 使 得 下 一 个 动作 能 够 执行 ， 直 到 最 终 整 个 系统 都 启动 。 引 导 是 
一 个 具有 很 高 优先 级 的 操作 ， 因 为 它 涉 及 系统 很 多 重要 资源 的 初始 化 。 下 面 是 一 个 简单 的 关于 
系统 初始 化 过 程 中 各 种 操作 发 生 的 时 间 表 。 

1. 一 个 处 理 器 “reset” 事 件 被 进入 处 理 器 的 一 个 引 脚 或 者 一 个 信号 激活 。 

2. 对 一 些 结构 化 资源 加 载 ISA 指定 的 初始 值 ， 例 如 : 

。 程序 计数 器 被 设 为 初始 值 ， 比 如 全 零 ; 

。 控制 寄存 器 被 设 定 为 初始 值 使 得 初始 化 程序 能 够 继续 执行 ， 比 如 所 有 的 陷阱 和 中 断 都 被 

屏 项; 
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。 页 面 转换 被 关闭 〈 它 会 被 作为 软件 初始 化 过 程 的 一 部 分 而 被 打开 ) ; 
。 一 些 也 有 可 能 是 所 有 的 通用 寄存 器 会 被 设置 为 初始 值 ， 因 为 内 存 位 置 的 寻 址 要 使 用 寄存 
器 中 的 值 来 计算 。 | 

3. 从 程序 计数 器 指定 的 初始 位 置 开 始 取 指 。 这 个 地 址 通常 包含 一 个 硬 连 线 指令 的 集合 。 
型 地 ， 这 些 指令 被 存放 在 被 称 为 boot ROM 的 只 读 存 储 器 中 。 在 boot ROM 中 的 代码 很 小 ， 仅 仅 
足够 初始 化 一 个 存放 了 更 多 启动 代码 的 启动 设备 。 这 个 启动 设备 可 以 是 一 个 磁带 设备 或 者 一 个 
软盘 或 者 硬盘 的 第 一 个 扁 区 。 

4. 初始 化 代码 从 这 个 启动 设备 获取 并 被 执行 。 这 些 代码 的 执行 能 让 其 他 关键 的 系统 部 件 被 
初始 化 ， 比 如 键盘 和 显示 器 被 初始 化 。 这 些 代码 也 可 以 访问 更 大 容量 的 区 域 ， 最 重要 就 是 包含 操 
作 系 统 代码 的 硬盘 (或 者 其 他 设备 ) 。 

5. 操作 系统 被 加 载 ， 并 获得 控制 权 。 

6. 操作 系统 初始 化 各 种 内 部 表 ， 开 启 页 面 喘 射 ， 通 过 激活 YO 总 线 来 定位 IO 设备 ， 对 文 
件 系 统 进行 粗略 的 检查 ， 最 后 提示 用 户 登 录 。 

7. 现在 系统 已 经 准备 好 执行 用 户 程 序 了 。 

下 面 有 一 些 关 于 启动 的 有 趣 方 面 : 

。 在 启动 的 早期 就 开始 网 络 连接 的 初始 化 变 得 普遍 了 ， 这 样 剩 下 的 初始 化 就 可 以 使 用 来 自 

于 一 个 远程 系统 的 代码 和 数据 来 进行 ; 

。 随 着 ROM 容量 的 增加 ， 原 来 要 从 软盘 或 者 CD-ROM 装载 的 很 多 函数 现在 都 可 以 存放 在 

boot ROM 中 了 ; 

。 许多 系统 还 在 启动 的 早期 进行 自 检 来 保证 关键 硬件 单元 能 正确 工作 。 


A.7 多 处 理 器 体系 结构 


计算 机 通常 都 具有 同时 处 理 多 线程 的 能 力 。 单 处 理 器 是 通过 被 称 为 “多 道 程序 (multipro- 
gramming) ”的 技术 来 实现 的 。 在 多 道 程序 中 ,在 一 个 特定 的 时 刻 只 有 一 个 进程 在 处 理 器 上 和 运 
行 。 多 个 进程 并 行 执行 的 表象 是 这 样 来 实现 的 : 让 每 个 进程 都 执行 一 段 不 长 的 时 间 ， 通常 在 
10ms 左右 。 在 时 间 片 的 末尾 ， 处 理 器 的 状态 被 保存 到 存储 器 中 ， 另 一 个 进程 的 上 下 文 则 被 加 载 
到 处 理 器 的 寄存 器 里 。 因 为 与 其 他 进程 共享 资源 ， 将 会 带 来 性 能 的 降低 ， 尽 管 这 种 性 能 降低 可 以 
通过 一 些 技 术 来 减少 ， 比 如 在 进程 需要 等 待 诸如 O 操作 等 外 部 事件 时 调度 上 下 文 切 换 。 图 
A-15a 显示 了 在 一 个 传统 的 拥有 单一 物理 处 理 器 和 操作 系统 的 多 道 程 序 系统 中 进程 的 多 路 复 用 。 
多 个 用 户 进程 在 同一 个 操作 系统 上 运行 ， 在 这 些 进 程 间 时 分 多 路 复 用 处 理 器 和 其 他 硬件 资源 。 

另 一 方面 ， 多 处 理 器 则 利用 多 个 处 理 器 来 实现 进程 的 并 行 执行 。 由 多 个 程序 计数 器 、 硬 件 寄 
存 器 、 执 行 单元 、 高 速 缓存 甚至 多 个 存储 器 来 处 理 多 个 进程 。 如 果 每 个 进程 都 被 设计 为 在 一 个 处 
理 器 上 运行 ， 则 不 会 由 于 在 其 他 处 理 器 上 执行 其 他 进程 而 导致 性 能 降低 。 但 是 ， 有 些 程序 被 设计 
为 在 不 同 处 理 器 上 运行 的 多 个 进程 间 需 要 互相 通信 ， 比 如 共享 数据 或 者 事件 通知 ， 这 时 程序 的 
性 能 就 由 通信 实现 的 效率 来 决定 了 。 

进一步 的 并 行 执行 能 够 通过 在 多 处 理 器 系统 的 每 个 处 理 器 上 实现 多 道 程序 来 获得 ， 如 图 
A-15b 所 示 。 该 图 阐明 了 一 个 操作 系统 和 它 的 应 用 进程 专属 于 多 处 理 机 系统 中 一 个 特定 的 处 理 器 
的 情况 。 也 可 以 把 多 处 理 器 设计 成 只 有 一 个 操作 系统 来 控制 进程 到 处 理 器 的 分 配 ， 在 这 种 情况 
下 , 一 个 进程 可 能 一 段 时 间 在 这 个 处 理 器 上 运行 ， 男 一 段 时 间 在 别 的 处 理 器 上 运行 。 

历史 上 ， 许 多 系统 都 是 围绕 一 个 单 处 理 器 来 设计 的 ， 这 样 的 单 处 理 器 系统 仍然 是 一 个 重要 
的 系统 类 型 。 但 是 目前 多 处 理 器 已 经 被 广泛 应 用 到 服务 器 领域 ， 在 高 端 桌面 应 用 中 也 越 来 越 普 - 


ZAB | 343 








及 。 作 为 服务 器 实现 ， 拥 有 大 容量 的 内 存 和 磁盘 系统 、 高 带宽 的 网 络 设施 的 多 处 理 器 系统 提供 了 
重要 的 规模 效益 和 更 优 的 在 大 量 同 时 活动 的 应 用 程序 间 平 衡 资源 的 能 力 。 系 统 软件 利用 系统 范 
围 的 数据 结构 来 管理 处 理 器 、 存 储 器 和 通信 资源 。 当 一 个 应 用 线程 已 经 被 初始 化 后 ， 系 统 软件 从 
可 用 处 理 器 池 中 给 它 分 配 处 理 器 资源 ， 当 线程 运行 时 ， 系 统 软件 出 为 它 提供 存储 器 、 磁 盘 和 通信 
资源 。 





a 多 道 程序 ， 在 单个 操作 系统 上 运行 的 多 个 任务 或 进程 时 分 多 路 复 用 


操作 系统 1 


操作 系统 2 


b) 多 处 理 器 ， 进 程 分 布 在 多 个 处 理 器 上 ， 但 操作 
系统 的 数量 不 能 超过 处 理 器 的 数量 


图 A-15 ”多 道 程序 系统 和 多 处 理 器 集群 系统 的 活动 对 比 
A.7.1 多 处 理 句 的 种 类 


有 两 种 主要 的 支持 多 处 理 机 的 模式 : 集群 计算 和 共享 存储 多 处 理 器 。 在 很 多 服务 器 环境 中 ， 
如 网 络 或 数据 库 服 务 器 ， 不 同 的 应 用 程序 进程 通常 都 是 互相 独立 的 。 这 种 类 型 的 工作 负载 能 够 
很 好 地 在 集群 系统 上 执行 ， 该 系统 中 与 每 个 处 理 器 相关 联 的 硬件 ， 包 括 存储 器 〈 有 时 候 还 有 磁 
盘 ) ， 都 是 和 系统 中 其 他 处 理 器 相关 联 的 硬件 分 开 的 。 这 种 情况 下 的 系统 软件 通常 由 在 每 个 处 理 
器 上 运行 的 一 个 操作 系统 的 不 同 副本 所 组 成 ， 如 图 A-15b 所 示 。 

还 有 另外 一 种 多 处 理 器 应 用 程序 ， 单 个 程序 实际 上 由 多 个 紧密 协作 的 并 行进 程 组 成 。 许 多 
科学 计算 和 工程 计算 应 用 程序 都 是 这 一 类 型 的 多 线程 程序 ， 还 有 一 些 计 算 密集 的 商业 应 用 ， 比 
如 数字 挖 气 ， 也 是 这 一 类 。 许 多 其 他 的 商业 数据 库 应 用 也 是 由 共享 数据 的 多 进程 构成 ， 它 们 完美 
地 在 单 操作 系统 的 多 处 理 器 系统 上 实现 了 ， 这 种 系统 中 操作 系统 把 存储 器 作为 一 个 单一 的 在 所 
有 的 处 理 器 间 对 称 共享 的 大 结构 来 管理 ， 所 以 被 命名 为 共享 存储 多 处 理 器 或 者 SMP。 共 享 的 存 
储 器 就 好 像 一 个 公告 牌 ， 可 以 用 来 从 一 个 进程 传递 数据 值 到 系统 的 另 一 个 进程 ， 或 者 向 一 个 正 
等 待 某 事件 发 生 的 进程 通知 事件 发 生 的 信号 。 数 据 和 事件 通信 的 可 靠 管理 需要 ISA 支持 的 特殊 
同步 原 语 。 这 两 种 类 型 的 多 处 理 器 系统 在 图 A-16 中 描述 。 

也 有 一 些 系统 混合 了 集群 和 共享 存储 两 种 多 处 理 机 的 形式 。 例 如 分 布 式 共享 存储 (DSM) 
系统 在 实现 上 与 集群 系统 相似 但 却 可 以 在 多 处 理 器 上 支持 单一 操作 系统 的 映像 。 在 这 种 系统 上 
要 达到 像 共 享 存储 系统 那样 的 低 通 信 延 迟 比 较 困 难 ， 有 大 量 的 工作 对 此 作 了 研究 ， 也 提出 了 一 
些 不 同 的 软 硬 件 技术 来 降低 或 隐藏 通信 延迟 。 但 这 种 计算 形式 没有 得 到 欢迎 ， 可 能 是 因为 应 用 
程序 性 能 对 算法 和 数据 结构 在 内 存 中 的 安排 都 具有 高 度 敏 感性 。 
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a) 单 处 理 器 b) 消息 传递 多 处 理 器 系统 c) 共享 存储 多 处 理 器 系统 (P= 
处 理 器 ; M= 存储 器 ) 


图 A-16 单 处 理 器 和 两 种 多 处 理 器 系统 


另 一 方面 ， 一 种 不 同类 型 的 混合 形式 开始 变 得 重要 起 来 一 一 基于 SMP 的 集群 。 许 多 现代 服 
务 器 系统 是 节点 构成 的 集群 ， 每 个 节点 是 一 个 小 的 共享 存储 多 处 理 器 。 一 个 节点 内 处 理 器 之 间 
的 通信 是 通过 共享 存储 器 ， 而 节点 间 的 通信 是 通过 消息 传递 。 不 像 分 布 式 共享 存储 模式 ，SMP 
集群 这 种 形式 没有 致力 于 在 硬件 上 来 改进 节点 间 的 通信 延迟 ， 从 而 也 不 期 望 操作 系统 能 覆盖 
SMP 集群 的 多 个 节点 。 


A.7.2 集群 系统 


最 常见 的 集群 就 是 一 个 简单 的 计算 机 网 络 ， 用 户 通过 终端 访问 集群 。 终 端 可 以 是 只 允许 用 
户 输入 命令 并 在 屏幕 上 显示 结果 的 简单 设备 ， 更 普遍 的 终端 是 完整 的 工作 站 或 PC 机 ， 具 备 处 理 
器 、 存 储 器 、 磁 盘 和 外 设 。 当 连接 到 网 络 时 ， 终 端 可 以 访问 网 络 中 其 他 节点 的 数据 。 网 络 可 以 是 
覆盖 大 范围 的 也 可 以 是 紧密 集成 的 高 速 互 连 。 集 群 中 实现 了 一 定 程度 的 隔离 是 基于 以 下 事实 ; 
应 用 程序 通常 在 本 地 节点 上 运行 而 不 容易 受 网 络 中 的 其 他 节点 上 运行 的 应 用 程序 的 影响 。 

除了 刚才 提 到 的 终端 节点 以 外 ， 集 群 中 的 网 络 通常 还 配置 了 不 同类 型 的 服务 器 。 我 们 已 经 
看 到 了 对 存放 集群 用 户 数据 的 文件 服务 器 的 需求 ， 还 有 WEB 服务 器 ， 是 作为 连接 到 万 维 网 的 服 
务 节点 ; 邮件 服务 器 ， 存 放 新 旧 电 子 邮 件 并 提供 邮件 服务 的 节点 ; 还 有 打印 服务 器 ， 为 其 他 节点 
提供 打印 服务 。 

集群 技术 在 大 型 的 服务 器 系统 中 也 应 用 广泛 ， 在 这 里 集群 的 每 个 节点 可 能 是 一 个 大 的 共享 
存储 多 处 理 器 系统 ， 例 如 一 个 32 路 (处 理 器 ) 或 64 路 系统 。 这 种 类 型 的 多 个 节点 通过 高 速 、 高 
带宽 的 光 网 络 互 连 ， 如 图 A-17 所 示 。 在 该 类 型 的 最 大 规模 系统 中 ， 高 带宽 的 互连网 络 可 能 不 是 
总 线 而 是 交叉 开关 。 该 类 集群 的 例子 包括 IBM 的 并 行 Sysplex 大 型 主机 系统 (Nick 等 人 ，1997 ) 
和 HP 的 Superdome Hyperplex 系统 (Charlu 1999) 。 起 初 这 些 系统 是 作为 对 单机 箱 扩 展 的 解决 方 
案 ， 它 们 具有 吸引 力 的 特征 包括 : 提供 了 一 套 软 件 系统 管理 工具 来 实现 负载 平衡 和 错误 恢复 ， 另 
外 还 提供 了 通信 功能 来 允许 应 用 程序 使 用 多 个 节点 相关 联 的 资源 。 

由 于 便宜 的 商用 单 处 理 器 系统 的 存在 ， 导 致 了 多 种 体系 结构 通过 组 合 商 用 部 件 来 构建 便宜 
的 多 处 理 器 系统 。 一 些 集群 系统 的 节点 ,例如 Beowulf 集群 系统 (Ridge 等 人 ，1997) ， 就 是 现货 
供应 的 单 处 理 器 或 者 带 现货 供应 的 磁盘 的 小 规模 SMP 系统 ， 再 通过 100M 以 太 网 这 样 的 商用 网 
络 相 连接 ， 在 上 面 运行 廉价 甚至 免费 的 操作 系统 比如 Linux), WE A-18 所 示 。Beowulf 集群 
的 一 种 更 密集 的 形式 ， 称 为 “刀片 服务 器 " ， 得 到 了 迅速 流行 。 刀 片 服务 器 实际 上 是 牺牲 了 VO 
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可 扩展 性 ， 取 消 了 桌面 电脑 的 显示 器 、 键 盘 、 机 箱 和 电源 供应 ， 将 这 样 的 单 处 理 器 或 SMP 子 系 
统 放 人 一 个 薄 封 装 里 ， 这 种 封装 被 称 为 “刀片 ”。 这 些 刀片 再 被 插入 一 个 标准 的 机 架 ， 机 架 背 板 


提供 了 以 太 网 连接 、 电 源 和 其 他 线路 。 





图 A-17 典型 的 大 规模 数据 库 服务 器 。 耦 合 设备 提供 了 硬件 来 支持 节点 间 的 同步 和 
一 致 性 。 系 统 定时 器 保证 所 有 节点 的 时 钟 是 同步 的 。 数 据 存 储 一 般 是 磁 
盘 ， 在 各 个 节点 间 共 享 ， 通 过 高 带宽 光纤 交叉 开关 来 访问 





键盘 显示 器 


图 A-18 基于 SMP 节点 的 集群 。Beowulf 集群 一 般 是 由 便宜 的 商用 桌面 计算 机 
组 成 ， 通 过 以 太 网 连接 ， 共 享 一 个 显示 器 和 键盘 来 进行 系统 管理 


从 编程 的 角度 来 看 ， 共 享 存储 和 集群 多 处 理 器 系统 的 区 别 在 于 进程 间 互 相通 信 的 方法 。 共 
享 存储 系统 中 ， 两 个 进程 间 通 信 通 过 读 写 都 可 以 访问 的 存储 器 地 址 来 实现 。 而 集群 系统 中 进程 
间 通 信 通 过 传递 消息 来 实现 ， 所 以 它们 也 被 称 为 消息 传递 多 处 理 器 系统 。 不 像 共享 存储 系统 ， 集 ”692 
群 系统 给 应 用 程序 员 带 来 了 更 大 挑战 。 在 两 种 多 处 理 器 系统 中 ， 程 序 员 都 需要 把 程序 组 织 、 划 分 
为 计算 的 线程 ， 每 一 个 线程 在 一 个 不 同 的 处 理 器 上 执行 。 在 集群 系统 中 ， 程 序 员 还 必须 负责 用 线 
程 间 传 递 的 消息 来 同步 线程 间 的 计算 。 如 果 不 是 因为 已 经 推出 了 在 集群 系统 上 开发 应 用 程序 的 
辅助 工具 软件 和 库 ， 集 群 系统 不 会 取得 它 现在 的 普及 率 。 消 息 传递 已 经 被 认为 是 适用 于 无 论 是 
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紧 耦 合集 群 还 是 松 耦 合 的 分 布 式 多 处 理 器 系统 的 技术 。 这 导致 了 标准 接口 的 开发 ， 这 样 的 接口 
可 以 让 程序 员 对 两 个 不 同类 型 环境 中 的 进程 间 通 信 进 行 抽象 。 使 用 得 最 广 的 这 类 接口 是 “消息 
传递 接口 (MPI) (Pacheco 1996)”, 它 具体 指定 了 一 个 库 函数 集 来 允许 进程 间 彼 此 通信 和 交换 
数据 。 基 于 MPI 的 应 用 程序 在 系统 间 的 移植 性 是 该 接口 的 最 大 优势 。 


A. 7. 3 共享 存储 器 系统 的 演化 


与 集群 系统 相 比 ， 许 多 商业 应 用 在 共享 存储 系统 中 能 得 到 更 多 好 处 。 共 享 存储 系统 与 消息 
传递 系统 相 比 设计 和 编写 程序 更 方便 ,但 支持 该 系统 的 硬件 会 更 复杂 和 专用 。 硬 件 复杂 性 源 于 
对 存储 同一 性 的 维护 ， 特 别 是 在 现代 层次 化 存储 的 情况 下 ， 这 时 存储 器 器 件 可 能 存在 于 多 级 
cache 中 。 消 息 传递 系统 避免 了 这 种 复杂 性 ， 把 这 个 任务 交 给 了 应 用 程序 员 或 者 库 函 数 。 

共享 存储 系统 的 易 编程 性 和 硬件 技术 的 创新 相 结合 ， 导 致 最近 十 年 来 开发 出 了 越 来 越 大 型 
的 SMP 系统 。 今 天 我 们 能 看 到 有 128 个 甚至 更 多 处 理 髓 的 共享 存储 多 处 理 器 系统 。 

今天 大 部 分 处 理 器 的 ISA 都 包含 了 对 共享 存储 地 址 访问 的 特殊 约定 ， 这 些 特殊 约定 与 ISA 


”其 他 部 分 一 起 在 程序 员 和 ISA 实现 间 建 立 了 协议 。 一 个 程序 员 写 程序 时 假设 访问 共享 变量 遵循 


了 确定 的 规则 ， 而 硬件 设计 者 (处 理 器 设计 者 或 系统 设计 者 ) 保证 程序 员 使 用 的 规则 确实 由 硬 
件 实 现 得 到 保障 。 

存储 一 致 性 模型 

存储 一 致 性 〈coherence) 是 指 一 个 给 定 存储 器 地 址 的 写 操 作对 系统 中 所 有 其 他 处 理 器 的 可 
见 性 。 理 想 情况 下 ， 可 能 希望 对 存储 器 地 址 写 人 的 值 立即 被 其 他 所 有 处 理 器 看 到 ， 也 就 是 说 其 他 
处 理 器 对 该 地 址 的 后 续 读 操作 都 能 得 到 新 的 值 。 但 这 个 “立即 ”的 方法 是 不 现实 的 ， 因 为 大 多 
数 现代 系统 的 存储 器 层次 结构 有 好 几 层 。 所 以 采用 了 一 个 更 现实 的 一 致 性 定义 一 一 一 个 处 理 器 
对 一 个 给 定 存储 器 位 置 进行 了 一 系列 写 操 作 ， 当 从 系统 中 其 他 处 理 器 观察 时 ， 如 果 这 些 写 操作 
顺序 被 维持 了 ， 那 么 就 认为 在 该 多 处 理 器 系统 上 实现 了 存储 一 致 性 。 注 意 这 种 定义 给 了 硬件 设 
计 者 很 大 的 灵活 性 来 延迟 其 他 处 理 器 观察 到 某 个 处 理 器 对 存储 位 置 的 修改 。 这 些 年 来 ， 有 很 多 
种 实现 协议 被 开发 出 来 支持 一 臻 性。 这 些 协议 大 多 数 是 可 选 的 实现 方案 ， 一 般 不 是 ISA 特定 的 
组 成 部 分 。 

考察 图 A-19 的 示例 。 假 设 处 理 器 1 和 2 都 有 写 直达 cache。 当 每 个 处 理 器 都 对 地 址 50 进行 
写 时 ， 它 们 实际 上 是 对 地 址 50 的 高 速 缓存 拷贝 进行 了 写 操作 。 结 果 紧 跟 其 后 的 一 个 读 会 反映 地 
址 50 的 高 速 缓存 中 的 值 。 因 为 cach 是 写 直达 的 ， 值 最 终 被 写 人 存储 器 ， 尽 管 处 理 器 2 的 写 操作 
到 达 存储 器 要 更 晚 一 点 。 同 时 ， 人 处 理 器 2 的 高 速 缓 存 中 的 地 址 50 被 替换 丢弃 。 当 下 一 次 地 址 50 
的 值 被 读 取 时 ， 所 有 处 理 器 都 得 到 值 1。 足 够 长 的 一 段 时 间 以 后 ， 处 理 器 2 的 写 请 求 到 达 存 储 
器 ， 而 此 时 两 个 处 理 器 高 速 缓存 中 的 地 址 50 都 已 被 蔡 换 ， 所 以 随后 两 个 处 理 器 都 从 存储 器 中 得 
到 值 2。 因 此 假设 初始 值 是 0， 处 理 器 1 观察 到 了 地 址 50 的 值 从 0 到 1 到 2 的 变化 ， 而 处 理 器 2 
观察 到 了 从 0 到 2 到 1 到 2 的 变化 。 这 就 违背 了 存储 一 致 性 的 规则 ， 因 为 处 理 器 1 不 可 能 看 到 被 
处 理 器 2 所 看 到 的 0-2-1-2 序 列 。 在 这 里 提醒 一 下 ， 这 样 的 情况 在 具有 立即 存储 器 访问 模型 
的 多 道 程 序 系统 或 多 处 理 器 系统 上 都 不 应 该 发 生 一 一 这 些 模型 是 程序 员 很 乐意 采用 的 。 

有 一 些 方法 来 避免 存储 一 致 性 问题 。 一 种 方法 是 确保 当 一 个 值 被 写 和 人 处理 器 的 cache 时 ， 
所 有 其 他 处 理 器 关于 该 地 址 的 cache 备份 都 要 被 置 为 无 效 ， 另 外 ， 要 保证 当 存 储 器 本 身 没 有 得 
到 有 效 值 时 ， 任 何 处 理 器 对 该 地 址 的 读 请 求 都 要 由 拥有 最 近 有 效 备份 的 cache 响应 。 读 者 可 以 
参考 文献 Culler 和 Singh (1999) ， 它 对 已 有 的 确保 存储 一 致 性 的 各 种 cache 一 致 性 协议 进行 了 
分 析 。 
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处 理 器 2 
处 理 器 2 地址 50 的 写 请 求 
读 地 址 50 获得 从 处 理 到 达 内 存 
ache E 50 
50 处 的 值 2 G | 版 处 的 值 1 从 处 理 器 2 的 2 
处 理 器 1 。 处 理 器 1 读 地 址 | 处 理 器 1 地 址 50 获 得 。 处 理 器 1 读 
请 求 写 地 址 。 50 处 值 1 的 ”处理 器 1 的 写 读 地 址 50 从 处 理 器 T 地 址 30 
50 处 的 值 1 Cache 版 请 求 到 达 内 存 处 的 值 1 Cache 写 回 的 值 处 的 值 2 


图 A-19 存储 一 致 性 问题 。 图 的 下 方 表示 处 理 器 1 产生 的 对 地 址 50 的 一 个 写 操作 ， 随 后 跟着 三 个 读 
操作 ， 而 图 的 上 方 表示 处 理 器 2 产生 的 相应 序列 。 阴 影 区 域 表 示 存 储 器 的 值 是 1， 细 线 条 区 
域 表示 存储 器 的 值 是 2。 注 意 从 cache 中 读 到 的 值 和 存储 器 中 的 值 不 同 。 从 处 理 器 1 读 返 回 
的 值 序列 是 0-1-1-2， 而 从 处 理 器 2 返回 的 是 0-2-1-2 


存储 同一 性 模型 

` 存储 同一 性 (consistency) 考虑 的 是 一 个 处 理 器 对 不 同 存储 器 地 址 的 访问 顺序 被 另外 处 理 器 
观察 到 的 结果 。 这 与 存储 同一 性 (coherence) 不 同 ， 它 针对 一 个 处 理 器 对 同一 地 址 的 写 顺序 。 
存储 同一 性 不 仅 关注 对 不 同 地 址 的 访问 ， 而 且 还 关注 两 种 不 同类 型 的 操作 一 一 读 和 写 。 一 般 来 
说 ， 如 果 对 同一 性 的 限制 更 多 一 点 ， 程 序 员 使 用 它 来 开发 和 调试 程序 就 更 容易 一 些 ， 但 硬件 设计 
师 设 计 高 性 能 的 实现 就 更 困难 一 些 。 一 种 实现 就 是 强迫 所 有 处 理 器 都 等 待 直到 一 个 写 人 值 对 系 
统 中 所 有 处 理 器 都 可 见 ， 这 提供 了 最 高 级 的 同一 性 ， 但 效率 实在 太 低 。 频 繁 且 长 期 的 等 待 会 大 大 
抵消 在 多 处 理 器 系统 上 运行 程序 时 并 行 性 所 带 来 的 好 处 。 

顺序 同一 性 模型 ， 最 早 由 Leslie Lamport (1979) 提出 ， 是 一 种 自然 和 优雅 的 模型 。 如 果 多 
线程 程序 产生 的 可 见 访 存 次 序 集 是 该 程序 在 单 处 理 器 多 道 程 序 系统 中 运行 时 所 产生 的 可 见 访 存 
次 序 集 的 子 集 的话 ， 那 么 这 个 多 处 理 器 系统 就 维护 了 顺序 同一 性 。 这 是 一 个 自然 的 定义 ， 它 比较 
严格 但 还 具有 足够 的 灵活 性 来 获得 多 处 理 机 模型 的 绝 大 多 数 好 处 。 即 使 在 多 线程 程序 的 多 道 程 
序 执行 中 ， 可 观察 到 的 访问 次 序 集 也 是 很 大 的 ， 而 且 由 于 上 下 文 切 换 的 时 间 点 变化 和 分 配给 处 
理 器 的 等 待 线程 的 不 同 都 会 产生 一 些 变化 。 参 见 图 A-20。 

我 们 在 这 里 只 简单 陈述 ， 不 作证 明 ， 在 多 处 理 器 系统 中 保持 顺序 同一 性 的 充分 条 件 如 下 : 对 
任 一 处 理 器 的 每 一 对 访 存 操作 ， 处 于 程序 序 中 第 一 个 访问 必须 在 第 二 个 访问 之 前 被 其 他 所 有 处 
理 器 观察 到 。 任 何 满足 这 个 条 件 的 实现 方式 都 能 保证 系统 的 顺序 同一 性 。 

处 理 器 设计 师 一 直 在 寻找 在 他 们 的 实现 中 加 速 单线 程 性 能 的 方法 。 现 代 超 标量 实现 中 试图 
通过 以 不 同 于 原始 程序 序 的 顺序 来 执行 指令 流 里 相互 独立 的 操作 来 加 大 吞吐 量 。 顺 序 同一 性 可 
能 会 影响 到 快速 单 处 理 器 的 设计 。 这 些 实现 的 基本 思想 是 程序 员 通 常 都 知道 在 他 们 的 程序 中 哪 
里 需要 维持 顺序 ， 所 以 没有 必要 在 实现 中 一 直 维护 顺序 同一 性 。 现 在 让 我 们 来 看 看 一 些 可 能 放 
松 的 地 方 。 

当 一 个 处 理 器 产生 一 对 访 存 操作 时 ， 硬 件 的 各 种 情况 ， 特 别 是 完成 这 些 访问 的 延迟 ， 可 能 会 
导致 第 二 个 操作 看 似 比 第 一 个 操作 先 发 生 ， 这 种 两 个 访 存 操作 之 间 潜 在 的 顺序 冲突 被 称 为 相关 
(hazard) 。 有 四 种 可 能 的 相关 : 

。 读 - 读 (RR) AX: 意思 是 按照 程序 序 有 两 个 读 操作 ， 但 第 二 个 看 起 来 发 生 在 第 一 个 之 

前 。 也 许 有 人 认为 如 果 读 操作 中 间 没 有 写 操作 ， 这 样 的 读 操 作 的 重 排序 应 该 没有 什么 问 
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题 。 在 单线 程 程序 中 的 确 如 此 。 但 在 多 处 理 器 环境 下 的 多 线程 程序 中 ， 存 在 有 别 的 处 理 
器 对 某 个 读 操作 地 址 写 人 的 可 能 性 从 而 导 臻 最终 读 出 的 值 与 其 他 保证 读 - 读 顺 序 的 实现 


中 的 读 出 值 不 一 致 。 
初始 态 : A = 0, B=0 
Processor 1 Processor 2 
Write A= 1 Write B = 1 
Read B Read A 
a) 
处 理 器 1 
Sets Ato 1 Reads B (value 0) 申 行 同一 性 : 例 1 





处 理 器 2 SetsBto1 Reads A (value 1) 
b) 
处 理 器 1 
Sets Ato1 Reads B (value 1) 申 行 同一 性 ; 例 2 





处 理 器 2 Sets Bto1 Reads A (value 1) 
c) 
处 理 器 1 
Sets Ato 1 Reads B (value 1) 。 串 行 同一 性 : 例 3 





d) 


Sets Ato1 Reads B (value 1) 串 行 同一 性 : 例 4 





处 理 器 2 Sets Bto 1 Reads A (value 0) 
e) 


图 A-20 ”顺序 同一 性 。 如 果 a 中 的 程序 在 多 道 程序 环境 下 运行 ， 可 能 的 结果 显示 在 b 到 e。 所 以 任何 
顺序 同一 性 系统 必须 只 能 产生 这 些 结果 之 一 。 尤 其 是 不 可 能 在 结束 时 读 出 两 个 值 都 是 0 


。 写 - 读 (WR) AX: 这 是 指 读 操 作 发 生 在 写 操作 之 前 的 一 种 访 存 顺序 改变 ， 尽 管 程序 
中 要 求 读 操作 在 写 操作 之 后 。 处 理 器 总 是 被 设计 成 避免 对 同一 地 址 的 写 读 相 关 。 
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° 读 - 写 (RW) 相关 : 这 是 指 写 操 作 发 生 在 读 操作 之 前 的 一 种 访 存 顺序 改变 ， 尽 管 程序 
中 要 求 写 操作 在 读 操 作 之 后 。 

° 5-8 (WW) AX: 这 是 指 两 个 写 操作 发 生 的 顺序 与 程序 中 指定 的 顺序 相反 。 同 样 ， 
在 单线 程 上 的 正确 执行 保证 了 这 样 的 相关 不 会 在 两 个 写 人 地 址 相同 的 时 候 发 生 。 

一 个 不 允许 在 任意 实现 中 出 现 以 上 四 种 相关 的 ISA 被 认为 是 支持 强 的 顺序 同一 性 模型 。 多 
数 处 理 器 ISA 指定 的 同一 性 规则 都 比 这 个 强 的 同一 性 模型 要 弱 一 些 。IBM System/390 和 IA-32 处 
理 器 最 初 都 指定 了 一 个 较 松 的 次 序 规则 ， 今 天 被 称 为 处 理 器 同一 性 。 这 个 规则 允许 对 WR 次 序 
进行 放松 ， 也 就 是 说 : 它 允 许 在 前 面 指 令 的 结果 还 没有 完全 写 回 到 存储 器 时 就 读 取 后 面 指令 的 
操作 数 。 不 允许 这 样 的 放松 会 导致 处 理 器 的 流水 线 操作 受到 很 大 阻碍 ， 因 为 即使 指令 的 操作 数 
独立 于 立即 前 趋 指令 的 写 人 值 也 不 能 开始 读 取 操作 数 。 

图 A-21 说 明了 实现 处 理 器 同一 性 模型 的 多 处 理 器 系统 如 何 产生 在 顺序 同一 性 模型 的 系统 中 
不 可 能 产生 的 结果 。 程 序 的 例子 来 自 图 A-20。 在 例子 中 ， 如 果 两 个 处 理 器 都 在 写 操 作 之 前 先 执 
行 读 操作 ， 就 有 可 能 两 个 处 理 器 在 程序 段 尾 部 同时 看 到 旧 值 。 另 一 方面 ， 正 如 图 A-20b 到 e 部 分 
所 示 ， 实 现 了 顺序 同一 性 的 系统 中 至 少 有 一 个 处 理 器 必须 看 到 一 个 新 值 。 

初始 态 : A = 0, B=0 
Processor 1 Processor 2 
Write A=1 Write B = 1 
Read B Read A 
(B reads 0) (A reads 0) 
a) 








处 理 器 1 
bei Sets Ato 1 
ite SS EEDE 
A=0 | TT A=1 
B=0 | = pa es | 
| 
处 理 器 2 a Sets B to 1 


b) 


图 A-21 阐明 处 理 器 同一 性 的 示例 程序 。 在 处 理 器 同一 性 中 ， 如 果 访 问 的 地 址 不 同 ， 读 操作 允许 比 前 
面 的 写 操作 更 早 执行 。 如 果 这 样 ，A 和 B 读 出 来 的 值 都 是 0。 这 种 组 合 不 同 于 图 A-20b F) e 的 
任何 一 个 
随 着 将 访 存 与 指令 执行 分 开 的 超标 量 处 理 器 的 出 现 ， 存 储 器 模型 开始 使 用 更 弱 的 同一 性 规 
则 。 比 如 释放 同一 性 〈Gharachorloo 等 ，1990) 除了 显 式 同步 操作 外 放松 了 所 有 访问 存储 器 顺序 
的 要 求 ， 已 经 被 很 多 当代 处 理 器 支持 。 对 多 线程 程序 执行 正确 性 的 要 求全 部 交 给 了 程序 员 来 保 
WE. ISA 提供 了 特殊 指令 ， 通 常 称 之 为 存储 器 栅栏 指令 ， 用 来 让 程序 员 或 编译 器 在 需要 的 时 候 强 
加 顺序 关系 。 存 储 器 栅栏 指令 的 例子 包括 Sun 公司 SPARC 体系 结构 的 MEMBAR 指令 和 Power- 
PC 结构 的 SYNC 指令 。 它 们 都 保证 在 存储 器 栅栏 前 发 生 的 操作 结果 已 经 被 记录 后 ， 位 于 存储 器 
栅栏 后 的 操作 结果 才 可 见 。 因 此 ， 如 果 图 A-21a 的 例子 中 需要 严格 的 顺序 ， 在 写 操 作 和 读 操作 间 
加 入 一 条 存储 器 栅栏 指令 就 能 防止 在 store 指令 的 结果 被 记录 前 完成 load 指令 。 
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A. 8 指令 集体 系 结构 示例 


多 数 在 本 书 中 用 到 的 例子 都 用 到 了 PowerPC ISA 或 者 IA-32 ISA， 所 以 我 们 会 在 附录 余下 的 
部 分 介绍 这 两 个 体系 结构 各 自 的 显著 特点 。 


A.8.1 PowerPC ISA 


PowerPC 体系 结构 (IBM 1994) 是 由 IBM, Apple 和 Motorola 三 个 公司 在 1993 年 联合 制定 
的 ， 但 它 更 紧密 地 源 于 早期 的 IBM POWER ISA。 目 前 PowerPC 被 IBM 公司 用 到 它 的 pSeries、 
eSeries 和 iSeries 系列 电脑 的 产品 线 中 ， 被 Apple 公司 用 到 它 的 Macintosh 产品 线 中 。PowerPC 还 
有 一 些 版 本 应 用 在 IBM 和 Motorola 的 嵌入 式 系统 中 ， 以 及 Nintendo 公司 销售 的 游戏 机 中 、Sony- 
Toshiba-IBM (STI) 联合 体 的 Cell 处 理 器 中 和 IBM 著名 的 BlueGene 超级 计算 机 中 。 

PowerPC ISA 是 一 种 RISC ISA。 由 于 寻 址 更 大 的 存储 器 地 址 空间 的 需求 和 在 更 大 数据 单元 上 
操作 的 性 能 优势 ， 初 始 的 32 位 结构 被 拓展 到 64 位 。 我 们 从 状态 描述 (寄存 器 和 储存 器 体系 结 
构 ) 开始 介绍 ， 然 后 对 实际 的 指令 集 进行 总 结 。 

寄存 器 

PowerPC 的 寄存 器 集合 如 图 A-22 所 示 。 总 共有 32 个 通用 寄存 器 和 32 个 浮 点 寄存 器 。 浮 点 寄存 
器 是 64 位 宽 而 通用 寄存 器 是 32 位 宽 或 64 HE, 具体 依赖 于 体系 结构 实现 的 版 本 。 两 个 版 本 其 实 可 
以 同时 在 一 个 实现 中 支持 ， 实 际 的 物理 寄存 器 是 64 位 宽 ， 但 在 32 位 模式 下 只 使 用 它 的 低 32 位 。 


通用 寄存 器 


专用 寄存 器 


Condition Register 


Link Register 
















Count Register 








Machine State Register 





Save/Restore Register 1 










Save/Restore Register 2 







Fixed-Point Exception Register 








Floating Status/Control Register | 







Storage Descriptor Register | 





Data Storage Int. Status Register 





图 A-22 PowerPC 寄存 器 集 。 阴 影 区 域 表示 在 64 位 模式 下 从 32 位 拓展 到 64 位 的 寄存 器 部 分 


应 用 程序 主要 使 用 的 专用 寄存 器 有 链接 寄存 器 和 计数 寄存 器 ， 每 个 都 是 32 位 或 64 位 ， 由 使 
用 模式 决定 ， 另 外 还 有 32 位 的 条 件 寄 存 器 ， 被 分 成 8 个 可 独立 寻 址 的 域 ， 每 个 域 都 用 来 作为 某 
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种 指令 运算 的 副作用 记录 。 定 点 的 异常 寄存 器 包含 被 定点 指令 用 到 或 设置 的 某 些 域 ， 而 浮 点 状 
态 和 控制 寄存 器 允许 用 来 监控 浮 点 指令 执行 的 一 些 状态 。 这 两 个 寄存 器 都 有 “统计 ”位 ， 这些 
位 由 一 条 指令 的 执行 而 隐 式 置 位 ， 但 只 能 被 显 式 复位 。 这 些 位 提供 了 从 它们 被 复位 以 来 是 否 发 
生 了 某 种 事件 的 统计 信息 。 

剩 下 的 寄存 器 通常 不 在 用 户 程序 的 编译 中 使 用 。 基 中 包括 一 个 机 器 状态 寄存 器 MSR， 它 提 
供 当 前 机 器 状态 信息 ， 比 如 当前 是 32 位 还 是 64 位 模式 ， 是 否 在 特权 态 ， 是 否 进行 地 址 转换 等 。 
有 两 个 寄存 器 SRRO 和 SRR1 ， 分 别 是 机 器 状态 和 恢复 寄存 器 ， 用 来 在 中 断 时 保存 和 恢复 机 器 状 
态 。 其 他 的 专用 寄存 器 包括 数据 存储 中 断 状态 寄存 器 DSISR， 提 供 了 关于 存储 和 对 齐 中 断 产生 的 
信息 。 还 有 几 个 软件 使 用 的 寄存 器 SPGRO -3， 专 门 设计 供 操作 系统 使 用 。 

存储 器 体系 结构 

PowerPC 应 用 程序 使 用 的 地 址 通常 被 称 为 有 效 地 址 (effective address)。 而 术语 虚 地 址 (vir- 
tual address) 指 的 是 一 个 更 大 的 平板 地 址 空间 ， 它 包含 了 系统 中 所 有 活动 进程 的 有 效 地 址 空间 。 
最 后 ， 术 语 实际 地 址 (real address) 就 是 传统 意义 上 实际 存储 器 中 的 地 址 。 

PowerPC 存储 器 结构 实现 了 段 ， 每 段 容量 可 达 2* 字 节 (256MB), WANE ISH bo 
(4KB) 。 有 效 地 址 空间 的 大 小 由 地 址 模式 决定 ，32 位 模式 下 为 2” 字 节 而 64 位 模式 下 为 2 字 节 。 602 
实际 地 址 空间 的 大 小 同样 在 32 位 模式 下 为 2* 字 节 ， 在 64 位 模式 下 为 2“ 字 节 。 虚 地 址 空间 则 更 
K, 32 位 模式 下 达到 了 2” 字 节 ，64 位 模式 下 达到 了 2” 字 节 。 

32 位 模式 下 有 16 个 段 寄 存 器 ，SR0 - 15， 用 于 保存 有 效 地 址 空间 中 可 用 的 16 个 自在 虚拟 存 
储 器 中 的 位 置 。32 位 有 效 地 址 的 高 4 位 指向 16 个 段 寄存 器 中 的 一 个 ， 其 中 存放 了 段 地 址 的 高 24 
位 (参考 图 A-23) 24 位 的 虚拟 段 DD〈(VSID) 和 来 自 有 效 地 址 的 16 位 页 索引 一 起 组 成 40 位 虚 
TS (VPN), VPN 然后 通过 页 表 被 转换 为 实 页 地 址 (RPN) ， 而 页 表 在 实际 存储 器 中 的 存放 位 
置 由 存储 描述 符 寄存 器 SDRI1 决定 。 


52 位 虚 地 址 


32 位 实地 址 





图 A-23 32 位 PowerPC ISA 的 地 址 转换 


PowerPC 有 一 个 结构 化 的 页 表 ， 也 就 是 说 页 表 项 的 格式 由 ISA 定义 。 为 了 能 够 更 有 效 地 引用 
页 表 ， 这 个 表 可 以 通过 散 列表 方式 相 联 访问 。VPN 用 两 种 方式 散 列 成 两 个 指针 ， 每 个 指针 都 指 
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向 一 个 存放 了 8 个 页 表 项 的 项 集合 (PTEG) 。 只 有 在 所 需要 的 页 面 在 两 个 页 表 项 集合 中 都 找 不 
到 时 才 会 产生 页 面 失效 。 产 生 页 面 失效 的 可 能 性 取决 于 各 种 因素 ， 包 括 使 用 的 散 列 函数 ， 实 现 的 
PTEG 的 数目 还 有 应 用 程序 的 引用 特性 。 

PowerPC 体系 结构 没有 指定 快 表 (TLB) 的 使 用 ， 但 如 果实 现 了 TLB ， 它 也 提供 了 相关 指令 
来 维护 TLB (实际 上 都 实现 了 TLB), H, tibie 指令 在 一 个 表 项 在 散 列 页 表 中 被 替换 时 能 用 来 
使 快 表 中 的 相应 项 无 效 。TLB 中 的 所 有 项 能 被 tlbia 指令 同时 置 为 无 效 〈 刷 新 ) 。 

在 64 位 模式 下 ， 段 的 有 效 数目 是 2 个 而 不 是 16 个 。 一 个 有 效 段 卫 BMW ID 的 上 映射 是 
通过 段 表 来 实现 的 ， 段 表 由 地 址 空间 寄存 器 (ASR) 来 指明 。 同 样 ， 为 了 能 更 有 效 地 访问 这 个 
表 ， 两 个 散 列 指针 被 用 来 访问 两 个 段 表 项 集合 〈STEGs) ， 每 个 集合 有 8 个 段 表 项 。 一 个 失效 会 
导致 段 失效 。 一 个 有 段 查找 缓冲 (SLB) 被 用 来 避免 在 每 一 次 引用 时 都 进行 转换 。ISA 提供 了 slbie 
和 slbia 指令 分 别 来 使 一 个 SLB 项 或 整个 SLB 无 效 。 

指令 集 总 结 

PowerPC 是 32 位 固定 长 度 的 RISC 指令 集 。 所 有 的 存储 操作 都 通过 load 和 store 指令 来 完成 。 
所 以 不 会 有 指令 对 存储 器 内 容 执行 算术 逻辑 运算 。 任 何 这 样 的 操作 都 要 先 把 操作 数 从 存储 器 中 
取出 来 再 进行 运算 。 

PowerPC 把 用 户 指令 集 分 为 三 组 : 分 支 处 理 器 指令 、 定 点 处 理 器 指令 和 浮 点 处 理 器 指令 。 

分 支 处理 器 处 理 设置 和 使 用 条 件 存储 器 CR 的 指令 ,或 者 那些 通过 改变 程序 计数 器 来 改变 指 
令 串 行 执行 控制 流 的 指令 。 后 一 种 指令 也 就 是 分 支 指令 ， 采 用 以 下 两 种 格式 中 的 一 种 。 

b "target 分 支 到 用 指令 里 的 24 位 偏 移 量 加 上 当前 指令 地 址 得 到 的 目标 地 址 去 。 


有 条 件 的 分 支 到 用 指令 里 的 14 位 偏 移 量 加 上 当前 指令 地 址 得 到 的 目标 地 址 去 。 分 支 条 件 是 
由 指令 中 的 BI 条件 寄存 器 位 和 BO 域 决 定 的 。 


be cond, target 


604] 一 种 有 用 的 分 支 指令 变 体 是 分 支 链接 指令 。 当 分 支 指令 中 的 LK 位 被 置 位 时 ， 说 明 执 行 b 或 
be 指令 的 一 个 副作用 是 把 紧 跟 分 支 指令 的 后 续 指 令 的 地 址 存放 到 链接 寄存 器 LR 中 。 这 是 在 函数 
调用 时 保存 返回 地 址 的 一 个 很 有 效 的 方法 。 

bl target 分 支 到 目标 地 址 并 把 返回 地 址 保存 到 链接 寄存 器 。 
bel target 有 条 件 地 分 支 并 链接 到 目标 。 


分 支 处 理 器 还 包括 了 对 CR 寄存 器 的 某 些 域 或 位 进行 各 种 座 辑 运算 和 传输 的 指令 。 男 一 个 重 
要 的 分 支 处 理 器 指令 是 系统 调用 指令 。 
sc ”分支 到 由 MSR 决定 的 特殊 地 址 ， 并 且 保 存 状态 信息 到 SRRO 和 SRR1。 在 执行 完 该 指令 后 处 理 器 进入 系 统 模式 


定点 处 理 器 执行 那些 使 用 通用 寄存 器 GPR0-31 的 指令 。Load 和 store 指令 使 用 通用 寄存 器 来 
指定 相关 的 访 存 地 址 ， 所 以 也 包含 在 定点 处 理 器 中 。 下 面 是 一 些 load 和 store 指令 的 例子 。 


ld rt, d{ra) 把 地 址 (ma) +d 对 应 的 存储 器 内 容 取 到 ct. IRE AA SRK 

Idx rt, ra, rb 把 地 址 (ra) + (中 ) 对 应 的 存储 器 内 容 取 到 rt 寄存 器 。 

iwz rt, d(ra) 把 地 址 (ra) +d 对 应 的 存储 器 内 容 取 到 rt 寄存 器 的 低 32 位 。rt 寄存 器 的 高 32 位 置 0。 
lwzx nt, ra, rb 把 地 址 (ra) + (中) 对 应 的 存储 器 内 容 取 到 rt 寄存 器 的 低 32 位 。rt 寄存 器 的 高 32 位 置 0。 
sw rt, d(ra) 把 rt 寄存 器 的 低 32 位 存 到 地 址 (ra) +d 对 应 的 存储 器 。d 域 被 作为 有 符号 数 。 
stwx rt, Ta, rb 把 式 寄 存 器 的 低 32 位 存 到 地 址 (ra) + (中 ) 对 应 的 存储 器 。 
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其 余 的 定点 指令 和 大 多 数 RISC 指令 集中 的 指令 基本 相同 。 算 术 和 逻辑 指令 对 操作 数 运算 ， 
两 个 操作 数 可 以 都 在 通用 寄存 器 中 或 者 有 一 个 操作 数 是 指令 中 定义 的 常数 。 这 些 指令 是 非 破 坏 
性 的 一 结果 寄存 器 可 能 和 两 个 操作 数 寄存 器 都 不 同 。 示 例如 下 。 


add rt, ra, b ra 和 中 的 内 容 相 加 把 结果 存 人 rto 
ra 的 值 减 去 中 的 值 把 结果 存 人 rt。 助 记 符 里 的 点 表示 指令 的 副作用 ， 条 件 寄存 器 里 的 0 域 (LB 
subf. rt, ra, b fit) 必须 根据 运算 结果 ( 负 ，0 RR) 来 设置 。 这 被 称 为 记录 格式 指令 ， 因 为 它 在 指令 中 设置 了 
记录 位 。 


因为 分 支 指令 是 根据 条 件 寄存 器 的 内 容 来 进行 条 件 跳 转 ， 所 以 编译 器 必须 使 用 一 个 记录 型 
的 指令 或 使 用 比较 指令 显 式 地 设置 CR 寄存 器 的 某 些 域 ， 示 例如 下 。 


， a p RR a 和 也 的 值 ， 把 它们 作为 无 符号 数 ， 并 根据 它们 值 的 大 小 关系 (<b, m>rb, ra- 
empl) 由 ) 设置 条 件 寄存 器 的 3 域 (12 -15 位 )。 


PowerPC 还 有 丰富 的 循环 和 移 位 指令 。 这 些 指令 在 移 位 过 程 中 可 选 地 执行 屏蔽 操作 ， 使 得 编 
译 器 或 翻译 程序 中 的 很 多 常见 操作 可 以 在 一 条 指令 中 执行 。 示 例如 下 。 
根据 sh 中 指定 的 值 对 rs 内 容 进行 向 左 循 环 ， 并 把 被 屏蔽 的 部 分 合并 到 ra 里 。ra 中 


riwimi Ta, rs, sh, mb, me 。 被 修改 的 部 分 由 从 mb 到 me 的 位 置 的 工 扩 展 后 的 掩 码 来 决定 。 
根据 sh 中 指定 的 值 对 rs 内 容 进行 向 左 循环 ， 并 使 用 掩 码 来 提取 -部 分 循环 值 并 伟 


rlwinm ra, rs, sh, mb, me 
输 到 ra 中。 


A. 8.2 Intel IA-32 指令 集 


Intel IA-32 ISA (Intel 1999) ， 也 就 是 x86, 来 自 于 Intel 8086 到 286、386、486 和 Pentium 系 
列 。8086 开始 是 做 为 16 位 的 微 控制 器 芯片 ， 主 要 被 用 到 骨 人 式 系 统 中 。8086 的 变种 8088 在 
1981 年 被 IBM 选 来 生产 最 早 的 个 人 电脑 ， 很 快 x86 ISA 就 进化 到 32 位 的 通用 体系 结构 。 最 近 它 
被 进一步 扩展 到 64 位 。 目 前 IA-32 可 能 是 最 广泛 使 用 的 通用 体系 结构 ， 应 用 的 范围 从 笔记 本 电 
脑 、 桌 面 电脑 到 服务 器 。 

IA-32 ISA 是 一 种 CISC 指令 集 ， 这 个 指令 集 与 其 说 是 “复杂 ”不 如 说 是 “集群 "， 因 为 实际 
上 有 些 指 令 集 还 更 复杂 。 集 群 来 源 于 它 的 演变 和 扩充 的 过 程 ， 每 一 步 演变 都 必须 维护 向 后 兼容 。 
在 本 书 里 我 们 介绍 32 位 的 IA-32 体系 结构 ， 早 期 的 16 位 版 本 和 后 来 的 64 位 版 本 没有 使 用 到 。 正 
如 我 们 刚才 介绍 的 PowerPC， 我 们 先 对 状态 ( 寄存器、 存储 器 结构 ) 进行 介绍 再 总 结实 际 的 指 
令 集 。 

寄存 器 

IA-32 寄存 器 集 如 图 A-24 所 示 。 它 有 8 个 通用 寄存 器 ，6 个 段 寄 存 器 和 一 个 8 个 元 素 的 浮 点 
栈 。 通 用 寄存 器 32 位 宽 ， 段 寄存 器 16 位 宽 ， 浮 点 栈 的 每 个 元 素 宽度 是 80 位 。 执 行 16 位 指令 时 
用 到 通用 寄存 器 的 低 16 位 。 一 些 通用 寄存 器 被 某 些 指令 用 于 特殊 用 途 ， 如 下 所 述 的 几 种 。 

eax 用 于 操作 数 和 结果 的 累加 器 

ebx 指向 DS 段 数 据 的 指针 

ecx “字符 串 和 循环 操作 的 计数 器 

edx LO 指针 

esi 指向 DS 段 数据 的 指针 ; 字符 串 操 作 的 源 指针 

edi 指向 ES 段 数据 的 指针 ; 字符 串 操作 的 目标 指针 


605] 


606] 


354 HERA 





esp SS 段 的 栈 指针 
ebp ” 栈 中 的 数据 指针 






通用 寄存 器 段 寄 存 器 专用 寄存 器 
eax CS LT TM, msw Tif] cro 
ebx DS CR1 
BCX SS CR2 
edx ES | page directory base | _ ||| | CR3 
ebp FS [| reserved silica 
esi Gs 
edi 
esp [| | flags __ |EFLAGS 
IDTR 
| japP 
FAR 

ST(0) 

ST(1) 

ST(2) 

ST(3) 

ST(4) 

ST(5) 

ST(6) 

ST(7) 


图 A-24 JA-32 寄存 器 集 。32 位 保护 模式 下 的 寄存 器 


专用 寄存 器 包括 5 个 控制 寄存 器 CR0-4， 存 放 了 一 些 状态 和 使 能 位 。 例 如 ， 出 现 页 失效 时 ， 
CR2 用 来 保存 引起 失效 的 地 址 ， 而 CR3 指向 页 表 。 还 有 三 个 其 他 的 专用 寄存 器 EFLAGS、EIP 和 
IDTR。EFLAGS 寄存 器 存放 一 些 状态 标志 ， 包 括 条 件 分 支 指 令 使 用 的 条 件 位 。EIP 是 程序 计数 器 
(在 Intel 术语 里 被 称 为 指令 指针 ) 。IDTR 寄存 器 是 中 断 描述 符 表 寄存 器 ， 指 向 存储 器 中 的 中 断 向 
BX. 

存储 器 体系 结构 

IA-32 存储 器 体系 结构 (图 A-25) 是 基于 段 的 ， 与 PowerPC 有 些 类 似 ,但 使 用 时 通常 被 特 
定 配置 为 一 个 平板 线性 模式 。IA-32 最 多 支持 64K 个 段 ， 每 个 段 最 大 4G。 这 些 段 被 映射 到 一 个 
单一 连续 的 32 位 线性 地 址 空间 (4GB)， 尽 管 在 任何 时 候 只 有 6 个 段 能 通过 6 个 段 寡 存 器 寻 址 。 

如 同 PowerPC 一 样 ， 一 个 逻辑 的 load 或 store 地 址 指定 了 一 个 段 寄存 器 和 最 多 32 位 的 偏 移 。 
一 些 指令 编码 只 能 指定 头 四 个 段 中 的 一 个 。 逻 辑 地 址 指向 4GB 线性 地 址 空间 的 一 个 位 置 。 当 偏 
移 量 被 计算 时 ， 通 常 是 将 通用 寄存 器 的 值 加 上 一 个 偏 移 值 ， 段 寄存 器 没有 改变 。 这 与 PowerPC 
相反 ， 位 于 有 效 地 址 高 位 的 段 指针 会 受 地 址 运算 影响 。 

当 按 最 通用 的 形式 来 使 用 时 ， 一 个 分 段 存 储 器 模型 的 构建 形式 如 图 A-25a。 但 是 通过 设 定 所 
有 的 段 寄存 器 都 指向 32 位 线性 地 址 空间 的 基 址 ， 一 个 简单 的 线性 存储 器 模型 可 以 被 构建 ， 如 图 
A-25b。 它 是 大 多 数 UNIX 系统 使 用 的 模型。 

线性 地 址 空间 被 分 为 4KB 大 小 的 页 ， 而 与 段 无 关 。 平板 的 线性 地 址 空间 则 被 映射 到 最 大 
为 4GB 的 实际 存储 器 上 。 与 PowerPC 一 样 ，IA-32 也 有 一 个 结构 化 的 页 表 ， 页 表 项 的 格式 在 
ISA 中 定义 。 页 表 与 图 A-10 中 所 示 的 类 似 ,但 它 包括 了 两 级 页 表 而 不 是 一 级 。 虚 地 址 中 的 20 
位 页 号 被 分 成 高 10 位 的 目录 指针 和 低 10 位 的 页 指针 。 目 录 指 针 指 向 1K 页 目录 中 的 某 一 项 。 
每 个 目录 项 指向 一 个 独立 的 页 表 ， 通 过 低 10 位 页 指针 来 访问 。CR3 作为 页 目录 的 基 址 ， 指 向 
页 目录 。 
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32 位 线性 32 位 线性 
地 址 空间 地 址 空间 





BRETH Rae 
cs 
DS 
ss 
ES 
FS 
GS 
b) 平板 的 存储 器 模型 。IA-32 也 支持 一 个 
实际 地 址 模型 ， 没 有 在 图 中 显示 出 来 
图 A-25 1A-32 支持 的 虚拟 存储 器 模型 
指令 集 总 结 


IA-32 ISA 允许 可 变 长 指令 ,长 度 从 一 到 十 五 字 节 ， 尽 管 大 多 数 的 常用 指令 都 比较 短 。 指 令 
操作 数 ， 包 括 算术 指令 、 逻 辑 指令 或 移 位 指令 ， 可 能 来 自 寄 存 器 或 存储 器 。 这 与 RISC HORM 
反 ，RISC 指令 集 只 有 load 和 store 指令 才 可 以 从 存储 器 得 到 操作 数 。 

图 A-26 说 明了 IA-32 指令 的 通常 格式 。 包 括 一 个 0 到 4 字 节 的 前 级。 前 缀 字 节 指明 了 各 种 
特殊 情况 ， 比 如 ， 有 字符 串 指令 的 重复 或 有 地 址 段 、 地 址 大 小 和 操作 数 大 小 的 重 载 。 跟 在 前 缀 后 
的 是 操作 码 字 节 ， 随 后 可 能 会 还 有 一 个 操作 码 字 节 ， 取 决 于 第 一 个 字 节 的 值 。 后 面 跟着 可 选 的 寻 
址 模式 指定 域 , ModR/M。 它 只 在 一 定 的 操作 码 时 才 出 现 ， 表 示 一 种 寻 址 模式 和 寄存 器 。SIB F 
节 只 在 特定 的 ModR/M 编码 时 出 现 ， 指 定 一 个 基 址 寄存 器 ， 一 个 索引 寄存 器 和 一 个 索引 的 扩 放 
参数 。 变 长 的 位 移 域 只 在 特定 的 访 存 模式 下 才 出 现 。 最 后 是 可 变 长 的 立即 数 域 ， 只 在 操作 码 要 求 
时 才 出 现 。 当 需要 时 ， 一 个 段 寄 存 器 可 以 由 一 些 操作 码 位 或 由 ModR/M 字 节 指定 。 


i ET 


Oto4 optional optional optional 0,1,2,4 bytes 0,1,2,4 bytes 
图 A-26 IA-32 指令 的 通常 格式 


IA-32 ISA 把 用 户 指令 集 分 成 三 种 类 型 : 整数 指令 、 浮 点 指令 和 MMX (多 媒体 指令 ) 。 在 这 
个 简要 介绍 和 本 书 用 的 例子 中 ,我们 主要 关注 整数 指令 。 其 中 包括 跳 转 (条 件 和 非 条 件 ) 指令 ， 
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load/store 指令 和 各 种 ALU 运算 指令 。 但 是 如 我 们 前 面 所 述 ， 这 些 ALU 指令 还 可 能 指定 一 个 或 
610] 多 个 存储 器 操作 数 ， 所 以 实际 上 它们 中 有 许多 还 可 以 执行 load/store 操作 。 
跳 转 指令 包括 所 有 的 控制 转移 指令 ， 无论 是 条 件 还 是 非 条 件 的 。 条 件 跳 转 测试 EFLAGS 寄 
存 器 中 的 条 件 码 位 来 决定 是 否 跳 转 。 这 些 位 可 以 被 很 多 指令 设置 。 


jmp reg 间接 跳 转 到 寄存 器 reg 指定 的 存储 器 地 址 
jz target ”如果 EFLAGS 寄存 器 中 的 0 条 件 码 位 为 1 则 条 件 跳 转 到 目标 地 址 
jmp target 无条件 的 跳 转 到 目标 地 址 


过 程 调 用 和 返回 通过 使 用 把 返回 地 址 压 栈 或 弹 栈 的 指令 来 实现 ， 该 栈 由 esp 指向 。 
call target ”把 下 条 指令 的 程序 计数 器 值 压 栈 再 跳 转 到 目标 地 址 
ret 从 栈 中 弹出 返回 地 址 并 跳 转 到 该 地 址 


load 和 store 操作 当 不 与 算术 或 逻辑 操作 合并 在 一 起 时 ， 通 过 移动 指令 来 实现 。 


从 地 址 (reg2) + disp 对 应 的 存储 器 里 取出 数据 放 人 reglo disp 域 被 认为 是 有 符 
号 数 。 


mov disp (regl), reg2 ”将 reg2 的 值 存 人 地 址 (regl) + disp 对 应 的 存储 器 。disp 域 被 认为 是 有 符号 数 。 


mov regl, disp (reg2) 


大 多 数 的 ALU 操作 能 使 用 寄存 器 和 存储 器 一 起 来 获取 操作 数 ， 一些 代表 性 例子 如 下 。 


把 reg] 的 值 与 地 址 reg2 + disp 对 应 的 存储 器 操作 数 的 值 相 加 ， 结 果 存 人 regl。 根 
据 结果 设 定 EFLAGS 寄存 器 的 条 件 码 。 
把 reg] 的 值 减 去 immed 立即 数 ， 结 果 存 人 regl。 根 据 结 果 设 定 EFLAGS 寄存 器 的 
条 件 码 。 
xorl regl, reg2 regl 与 reg2 的 值 相 异 或 ， 结 果 存 人 regl。 根 据 结果 设 定 EFLAGS 寄存 器 的 条 件 码 。 


add! tegl, disp (reg2) 


sub regl, immed 
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basic (基本 的 ) 305-306 
binary translation and incremental predecoding ( 二进制 翻 
译 和 增 量 式 预 译 码 ) 55-62, 80, 82 
decode-and-dispatch interpreter ( 译 码 -分 派 解 释 器 )， 
30，80，81 
defined (ŒX), 27 
direct threaded interpretation ( 直接 线程 化 解释 ) 37- 
38, 80, 81-82 
engine (引擎 ) 85, 281, 283 
exceptions ($#), 86, 119-128 
high-performance ( ERE) , 306-320 
incremental predecoding and translation ( 增 量 式 预 译 码 
和 翻译 ) ，55-62 
indirect threaded interpretation (间接 线程 化 解释 )， 
80, 81 
manager (EM) (管理 器 (EM)), 55, 58 
memory architecture 《 内 存 结构 ) 102-114 
operating system (操作 系统 )，128-133 
same-ISA (相同 -ISA) ，63-64 
staged (分 阶段 的 ) 116-119, 151-153 
Emulators (仿真 器 ) 13-15 
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Environments, migration of computing (〈 环境， 计算 迁移 ) ， 
521-532 
Epilog side table (尾声 索引 表 ) , 205-206 
Escape analysis (逃逸 分 析 ) , 317 
Event-driven modules (事件 驱动 模块 ) S11 
Exception, use of term (异常 ， 术 语 的 使 用 ) ，119 
Exception emulation (异常 仿真 )，86 
ABI invisible (ABI 不 可 见 的 )，120 
ABI visible ( ABI FJ LAY), 119 
exception detection ( 异常 探测 ) 120-121 
interrupt handling ( 中 断 处 理 ) 121-122 
precise guest state, determining (精确 的 客户 机 状态 ， 确 
定 ) ，122-128 
Exceptions, precise 〈 异常， 精确 的 ) 277 
Exceptions and errors, Java (异常 和 错误 ，Java) 254-256 
exec () (exec ()), 141 
Execution engine ( 执行 引擎 ) 281, 283 
Extrinsic compatibility (外 在 兼容 性 ) 88, 184 


F 


Fault (s) (故障 ) ， 
containment ( 隔离 ) 480-481 
recovery from (RÆ), 483-485 

Field count and information, Java ( 域 数 目 和 信息 ， 
Java) ，259 

FIFO, coarse-grained (FIFO ， 粗 粒度 ) 138-139 

FIFO, fine-grained (FIFO ， 细 粒度 ) 125, 138 

File limits, enforcing (文件 限制 ， 强 制 执行 ) 133 

Floating-point arithmetic (72 ABA), 74, 565 

Flush-when-fall ( 满 时 清除 ) 136-137 

Forth language (Forth 语言 ) 29 

Fujitsu, PrimePower systems ( Fujitsu, PrimePower 系 
w), 456 

Fully associative cache (全 相 联 cache), 558-559 

Fully qualified name (完全 限定 名 ) ，284 

Functional instructions, Java (功能 指令 ，Java) 249-250 

Fundamental Software Inc. FLEX-ES ( Fundamental Soft- 
ware Inc. , FLEX-ES ), 486 

FX!32 system (FX!32 RH), 14, 15, 46-49, 88, 118, 
141, 142-145 


G 


Garbage collection 《垃圾 收集 ) , 238-240, 283, 294-295 
compacting (32H), 297-298 
copying (复制 ) 299 
generational 【分 代 的 ) 300 
incremental and concurrent ( 增 景 的 和 并 发 的 ) 300-302 
mark-and-sweep 《标记 清扫 ) ，296-297 


optimizing (优化 ) 320 
root set ( 根 集 ) 302-303 
summary of ( 小结 ) 303 
Generational garbage collectors (分 代 垃 圾 收集 器 ) 300 
getrlimit ( ) (getrlimit ( ) ) 133 
Global memory (£B WFE), 243-244, 282 
Globus project (Globus 项 目 ) 542-543 
Grids 
access issues ( 网 格 ) 540-541 
characteristics of ideal (访问 问题 ) 539-542 
compared with virtual machines (理想 的 特性 ) , 543-546 
computing model, evolution of (比较 虚拟 机 )，537， 
542-543 
dependability 〈 计 算 模 型 ， 进 化 ) 539-540 
evolution of (可 靠 性 ) 535-538 
implementing, on virtual (进化 ) 
machine systems (〈 实现 ， 在 虚拟 机 系统 上 ) 546-551 
resource sharing 【资源 共享 ) 541-542, 544 
use of (EH), 546-551 
Guard instructions 〈 守护 指 令 ) 311 
Guests (客户 机 ) 10, 28 
improving performance 〈 提 高 性 能 ) 419-422 
integration of into host system environment (集成 ， 到 主 
机 系统 环境 ) ，140-142 
memory image ( ARR), 85 
precise guest state, determining (精确 的 客户 机 状态 ， 确 
定 )，122-128 
state management (状态 管理 ) ，375-377 
virtualization with different host and (不 同 主机 的 虚拟 
化 )，485-496 


H 


Handle pool (句柄 池 ) ，298 

Handshaking (握手 ) 420 

Hardware, computer ( 硬件 ， 计 算 机 ) 554-561 

Hardware page table 〔〈 硬件 页 表 ) 470 

Hashed copy scheme ( 散 列 备份 机 制 ) 531 

Hazards (#3), 597, 599 

Heap-allocated objects 〈 堆 分 配对 象 ) 316-318 

Hewlett-Packard -Compaq Superdome servers ( HP-Compaq 
Superdome 服务 器 ) 464, 465 
Dynamo system (Dynamo #4t), 15, 112, 119, 129, 
152, 209, 214-218, 515 
physical partitioning 〈 物 理 划 分 ) , 455-456 

High-level language virtual machine (HLL VM) (高 级 语言 
虚拟 机 (HLL VM)), 15-17 

High-level language virtual machine, architecture (高 级 语言 
虚拟 机 ， 结 构 ) 
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common language interface (公共 语言 接口 ) 267-275 
ISA features (ISA 的 特点 ) 275-279 
Java (Java), 241-261 
object-oriented (面向 对 象 ) 228-241 
Pascal P-code (Pascal P-code) , 225-228 
platforms (F), 261-267 
role of (H(i, FEF), 222-225 
High-level language virtual machine implementation, ( 高 级 
语言 虚拟 机 实现 ) 
class loader (类 加 载 器 ) 284-286 
components (部 件 ) ，281-284 
emulation, basic (仿真 ， 基 本 的 ) 305-306 
emulation， high-performance (仿真 ,高 性 能 的 )， 
306-320 
emulation/execution engine (仿真 /执行 引擎 )，85， 
281, 283 
garbage collection (垃圾 收集 ) 238-240, 283, 294-303 
memory (内 存 ) 281-282 
native interface (本 地 接口 )，259-261 283 , 304-305 
security (安全 ) 286-294 
Hitachi, logical partitioning (Hitachi, 32#42)4}) , 458 
Hoisting invariant checks (提升 不 变 的 检查 ) 319 
Hoisting invariant expression out of a loop (循环 不 变 式 外 
#2), 203-205 
Host-based intrusion-detection systems (HIDS) (基于 主机 
的 入 侵 检 测 系 统 ) , 502-505 
Hosted virtual machines (宿主 虚拟 机 )，379-381 
input/output virtualization and (输入 /输出 虚拟 化 和 )， 
412-414 
VMware Virtual Platform (VMware 虚拟 平台 ) ，426-435 
Hosts 〈 主 机 ) 10, 28 
guest process integration into (客户 机 进程 集成 到 )， 
140-142 
virtualization with different guest and (不 同 主机 的 虚拟 
化 ) ，485-496 
Host-supported memory protection ( 主机 支持 的 内 存 保护 ) ， 
104-105 
Hotspots (热点 ) 159 
Hybrid virtual machine system (混合 虚拟 机 系统 ) 391 
Hypervisors (超级 管理 程序 ) 464, 474-475 
services interface (服务 接口 ) 469-471 


IBM (IBM) 
AS/400 system ( AS/400 % #8), 22, 330, 353, 
357-367 
Daisy system (Daisy RHE), 334, 347, 353 
DK (DK), 306 


Interpretive Execution Facility (IEF) (解释 执行 工具 ) ， 
424-426 
iSeries servers (iSeries 服务 器 ) ，464 
Jikes Research Virtual Machine (RVM) (Jikes 研究 虚拟 
机 ) ，306 ，320-327 
PowerPC ISA ( PowerPC 指令 集 )，35-36，70， 74, 
600-606 
pSeries (pSeries ), 464, 600 
System/38 (System/38) , 330, 357-358 
System/360 ( System/360) , 7-8, 381 
System/370 ( System/370 ), 381-382, 395-396, 414- 
415, 427 
System/390, logical partitioning, ( System/390, 32 HE 
47), 458, 460-464, 473-474 
zSeries (zSeries) , 465 
IEEE floating point standard (IEEE 浮 点 标准 ) ，74 
If conversion (如 果 转 化 ) 208 
Image server (镜像 服务 器 ) 549 
Implementation (实现 ) 
layers (JZ), 6-7 
use of term (术语 的 使 用 ),，6 
Incremental garbage collection 《 增 量 的 垃圾 收集 ) 300-302 
Incremental predecoding and translation ( 增 量 的 预 译 码 和 翻 
译 ) 55-62 
Indirect jumps (间接 跳 转 ) 
binary optimization and (二 进 制 优化 和 ) ，155 
map table lookups (映射 表 查 找 )，55-56 | 
software prediction (软件 预测 ) ，66-67，340 
Indirect threaded interpretation (间接 线程 化 解释 ) , 80, 81 
Initialization (初始 化 ) 
ISA system (ISA 系统 ) 586-588 
process virtual machine ( 进程 虚拟 机 ) , 85 
Inline caching (内 联 高 速 缓存 ) 66 
Inlining (ARK), 
changing method calls 《改变 方法 调用 ) , 310-312 
guard instructions (守护 指令 ) 311 
multiversioning and specialization (多 版 本 和 专门 化 )， 
312-313 
partial procedure 《部 分 过 程 )，170 
procedure (程序 ) 169-170, 308-310 
Input/output, codesigned virtual machines and (输入 /输出 ， 
协同 设计 虚拟 机 ) , 351-352 
IBM AS/400 system (IBM AS/400 系统 ) 364-365 
Input/output systems ( 输入 /输出 系统 ) 559-561 
managing ($FE), 576-577, 582-583 
system calls (系统 调用 ) 585 
virtualization (虚拟 )，404-415，431-435 
Instruction checkpoints (指令 检查 点 )，194-195 
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Instruction emulation (指令 仿真 ) 114-119 
assists, 417-418 
Instruction set architecture (ISA) (指令 集体 系 结构 (ISA))， 
7-8 
examples (示例 ) , 600-611 
resource management (资源 管理 ) 566-580 
source (W), 13-14, 27-28 
system (系统 ) ，8 
target ( 目标 ) 14, 27-28 
user (FF), 8, 561-566 
virtual ( HEH), 16-17 
Instruction sets (EH), 2 
addressing architecture (地 址 结构 )，77 
byte order (FHF), 76 
condition codes (条 件 码 ) 70-74 
conventional versus V-ISA (传统 对 V-ISA) 278 
data formats and arithmetic (数据 格式 和 算术 )， 
74-75, 565 
IBM AS/400 system (IBM AS/400 系统 ) 361-364 
Java (Java), 246-254 
logically complete (逻辑 上 完整 ) 132 
memory address resolution ( 内存 地 址 解析 ) 75 
memory data alignment ( 内存 数 据 对 齐 ) 75-76 
Pascal P-code (Pascal P-code) ，227 
register architectures ( 寄存 器 结构 ) 69-70 
Instrumentation-based profiling (基于 择 桩 的 剖析 )， 
161-162 
Intel IA-32 (Intel IA-32), 427 
arithmetic (WAR, SH), 74 
binary translation ( — HE BE) , 49-52 
condition codes 〈 条 件 码 ) 70, 71-74 
description of (----+ 的 描述 ) 606-611 
EFLAGS (EFLAGS), 71, 430, 431 
high-performance interpretation (高 性 能 解释 ) , 46-49 
interpretation of (…… 的 解释 ) ，39-44 
pop stack into flags register (POPF) ( 弹 栈 并 写 到 标志 
存 器 ) 385-386, 391 
threaded interpretation (线程 化 解释 ) 44-46 
Intel IA-32 EL (execution layer) (Intel 1A-32 EL (执行 
层 )), 14, 84, 119, 152 
Intel TA-64 (IPF) (Intel IA-64 (IPF)), 83, 186 
Intel Itanium platforms ( Intel 安 腾 平台 ) 83-84, 162 
Intel VT-x (Vanderpool) (Intel 的 VT-x (Vanderpool) ) , 
436-442 
Interfaces (接口 ) 
Java (Java), 258 
well-defined (BEM), 23 
Internal Microprogrammed Interface (IMPI) (内 部 微 程序 接 


E (IMPI) ), 358 
Intemet Suspend/Resume (ISR) (互联 网 络 挂 起 /恢复 )， 
524-526 
Interpretation (解释 ) 14, 29 
basic 〔 基 本 的 ) , 29-32 
of a complex instruction set (复杂 指令 集 的 ) 38-49 
decode-and-dispatch( 译 码 - 分 派 )，30，80，81 
direct threaded ( 直接 线程 化 ) ， 37-38, 80, 81-82 
indirect threaded (间接 线程 化 ) 80, 81 
memory (AFF), 29-30 
precise guest state, determining (精确 的 客户 机 状态 ， 确 
定 ) 123 
profiling during (在 …… 期 间 剖 析 ) ，163-165 
Interpretive Execution Facility (IEF) (解释 执行 工具 ) ， 
424-426 
Interpretive trap detection (解释 的 陷阱 检测 ) 120 
Interrupts 〈 中 断 ) 
handling (Ab), 121-122, 577-580 
hypervisor 〈 超 级 管理 程序 ) 469 
registers (寄存 器 ) 569 
use of term (术语 的 使 用 ) ，119 
Intersuperblock optimizations ( 超 块 间 的 优化 ) 205-206 
Intrinsic compatibility ( 内 在 兼容 性 ) 88, 184 
Intrusion-detection systems (IDS) (入 侵 检 测 系统 ) ，502- 
505, 508-511 
invoke instructions (调用 指令 ) 251 
Itanium platforms 〈 安 腾 平 台 ) 83-84, 162 


J 


Java (Java), 6 
APIs (应 用 编程 接口 ) 262-263 
bytecodes 〈( 字 节 码 ) 232, 246 
constant pool (常量 池 ) 244-245 . 
garbage collection (RIH), 238-240, 283, 294-303 
global memory 《全 局 内 存 ) 244, 282 
memory hierarchy ( 内存 层次 ) 245-246 
objects (对象 ) ，243 
platforms (平台 ) 232, 261-262 
reference type (引用 类 型 ) 242 
security (Z£), 286-294 
stack (#%), 243-244, 282 
stack tracking (RIRE), 251-254 
threads (线程 ) 265-267 
java. awt (java. awt), 263 
JavaBeans (javaBeans) , 265 
java. io (java. io), 263 
java. lang (java. lang), 262 
java native interface (JNI) (java 本 地 接口 )，259-261 ， 
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283, 259-261, 283, 304-305 

java. net (java. net), 263 

java. util (java. util), 262-263 

Java virtual machine architecture (Java 虚拟 机 结构 )，17， 
241-261 

binary classes (二 进 制 类 ) , 256-259 

data storage (数据 存储 ) 243-246 

data types 〈 数 据 类 型 ) 242-243 

exceptions and errors (异常 和 错误 ) 254-256 
instruction set (指令 集 ) 246-254 

serializability and reflection 《序列 化 和 反射 ) 263-265 
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lookupswitch instruction (lookupswitch 指令 ) 250-251 

Loop, hoisting invariant expression out of a (循环 ， 不 变 式 
bht), 203-205 

Loop peeling (循环 剥离 ) 319-320 


M 


Machine, use of term (机 器 ， 术 语 的 使 用 ) 2, 9 
Magic number ( 约 数 ) 257-258 

Managed code 〈 受 管制 的 代码 ) 230 

Map table (映射 表 ) ，55-56 

Mark-and-sweep garbage collectors (标记 清扫 收集 器 )， 


Jikes Research Virtual Machine (RVM) (Jikes 研究 虚拟 机 
(RVM) ), 306, 320-327 

Join points (连接 点 ) 187, 188, 190, 200 

Jumps ( 跳 转 ) ， 
See also Indirect jumps (参见 间接 跳 转 )， 
instructions (指令 )，566 
profiling (剖析 ) 165 
translation lookaside buffers (TLB) ( 旁 路 转换 缓冲 ， 快 
#2), 341-342 

Just-in-time (JIT) compilation (即时 编译 ) 241, 305-306 


L 


Lazy evaluation 《惰性 计算 ) 71-73 

Least recently used (LRU) algorithm (最 近 最 少 使 用 
(LRU) 算法 ) 135-136 

Lie detection, 509-510 

Linux (Linux), 104, 107, 113, 129, 130, 133, 141 

Livewire system (Livewire 系统 ) 508-510 

LISP (LISP), 29 

Little-endian byte order (小 尾 字 节 序 〈 低 字 节 在 前 ) ) 76 

Loader (WRZ), 85 

Load. Processor Status Word (LPSW) (加 载 处 理 器 状态 
F), 384, 417-418 

Locality, improving memory (局 部 性 ， 改善 内 存 )， 
167-171, 558 

Load real address (LRA) (加 载 实地 址 ) ，385 

Local storage (局 部 存储 ) 243 

Logging, activity (日 志 ， 活 动 )，505-506，511-515 

Logical partitioning (3243 84}) , 458-475 
dynamic { 动态) 471-473 
hardware support (硬件 支持 ) 465-469 
hypervisors (HREH), 464, 469-471, 474-475 
IBM 390 logical partitioning (LPAR) (IBM 390 逻辑 划 
分 ) , 460-464, 473-474 
major features ( 主要 特征 ) 458-460 
system virtual machines compared to (系统 虚 氢 机 和 和 …… 
比较 ) 464-465 


296-297 


Memory 〈 内 存 ) 


address formation (地 址 格式 ) 277 

address resolution (地 址 解析 )，75 

address space mapping (地 址 空间 上 映射)，96，97-102 
architecture (结构 )，563-564 

borrowing (借用 ) ，482-483 

cache (高 速 缓存 ) ，558-559 ， 
Cellular Disco System (Cellular Disco System), 478- 
480, 482-483 

coherence 《一 致 性 ) , 488-490, 595-596 

concealed ( 隐藏 的 ) 21-22, 334-337 

consistency models (同一 性 模型 ) 490-496, 596-600 
conventional ( 传统 的 ) 276-277 

data alignment (数据 对 齐 ) 75-76 

hypervisor 〈 超 级 管理 程序 ) 466 

IBM AS/400 system (IBM AS/400 系统 ) 359-361 
interpreter (解释 器 ) , 29-30 

Java global (Java 全 局 ) 244, 282 

Java hierarchy (Java 层次 ) 245-246 

leak (ith, WF), 240 

load and store instructions (加 载 和 存储 指令 ) 565 
locality (局 部 性 ) 167-171 

main (主要 ) 557-558 

management (管理 ) 581-582 

mapping (BROT), 478-480 

method (FÆ), 257 

Pascal P-code (Pascal P-code) , 225-227 

physical versus real (物理 的 与 实际 的 ) 397 

system calls ( 系统 调用 ) ，584-585 

update instructions (更 新 指令 )，187，190 

virtual (虚拟 的 ) ，396-404，435 

volatile ( 易 失 性 的 )，187-188 


Memory architecture emulation, ( 内 存 结构 仿真 ) , 


access privilege types (访问 特权 类 型 )，102 
address space 《地 址 空间 )，102 
protection/allocation granularity (保护 /分 配 粒 度 )， 
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102, 103-114 
Memory protection (内 存 保护 ) 103 
fine-grain write-protection ( 细 粒 度 写 保 护 ) 110-111 
host-supported ( 主机 支持 的 ) 104-105 
integrity checks 〈 完 整 性 检测 ) 511 
page size issues ( 页 大 小 问题 ) 105-106 
protecting runtime (保护 运行 时 软件 ) 112-114 
self-referencing and-modifying code ( 自 引 用 和 自修 改 代 
码 ) 107-114, 337-339 
Memory state ( AFRA) 
binary translation (二 进 制 翻 译 ) 127-128 
codesigned virtual machines and 〈 协 同 设 计 虚 拟 机 和 兼 
容 性 ) 333-337 
compatibility (兼容 性 ) 183, 184 
Message Passing Interface ( MPI) (消息 传递 接口 ) 449 
Metadata ( 元 数据 ) 275 
Method inlining. See Procedure inlining (方法 内 联 。 参 见 程 
序 内 联 ) 
Method memory (方法 内 存 ) ，257 
Methods count and information, Java (方法 数 和 信息 ， 
Java) ，259 
Microsoft (微软 ) 
See also Windows (参见 Windows) 
common language infrastructure (CLI) (公共 语言 基础 
结构 (CLI)), 17, 232, 267-275 
intermediate language ( MSIL ) 
(MSIL) ) 232, 271-274 
shared-source CLR (共享 源 CLR), 232 
Middleware (中 间 件 ) 546 
Migration of computing (计算 的 迁移 ) 
environments (环境 ) ，521-532 
See also Mobility (参见 迁移 率 ， 活 动 性 )， 
MIPS ISA (MIPS ISA), 70 
mmap () (mmap ()), 104-105 
Mobility (活动 性 ) 
Internet Suspend/Resume (ISR) 
复 ) 524-526 
reducing memory before (在 …… 前 减 小 存储 ) , 527-528 
reducing start-up time 〈 降 低 启 动 时 间 ) , 530 
reducing transmission time and bandwidth (降低 传输 时 
间 和 带宽 ) , 530-531 
reducing transmitted packet size ( 减 小 传送 信息 包 的 大 
小 ) ，528-530 
role of virtual machines ( 虚拟 机 的 地 位 ) ，520-535 
Stanford Collective project ( Stanford Collective m H ), 
526-532 
VMotion (VMotion) , 532-535 
Mojo same-ISA optimizer ( Mojo 的 相同 -ISA 优化 器 )， 


(微软 中 间 语 言 


(互联 网 络 挂 起 / 恢 


119, 138, 209 
Most-frequently-used method (最 常 使 用 的 方法 )，175， 
176, 177 
Most-recently-used method (最 近 使 用 的 方法 )，175， 
177-178 
MOVE (MOVE), 430 
mprotect () (mprotect ()), 104, 107, 113 
Multiprocessor architecture ( 多 处 理 器 体系 结构 ) 588-600 
Multiprocessor systems partitioning (多 处 理 器 系统 的 划 
分 ) ，445 
Cellular Disco System (Cellular Disco System) , 475-485 
different host and guest (不 同 主机 和 和 客户) 485-496 
logical (324865) , 458-475 
mechanisms to support (支持 的 机 制 )，452 
partitioning techniques ( 划分 技术 ) 453-454 
physical (物理 的 ) ，455-457 
reasons for (原因 )，446-452 
Multiprogramming (多 道 程序 )，13，588-600 
Multiversioning (多 版 本 ) 312-313 


N 


Namespace ( 名字 空间 )，285 

Native interface, Java (本 地 接口 ，Java)，259-261 ，283， 
304-305 

Native virtual machines (本 地 虚拟 机 ) ，11 ，379-381 

Network-based intrusion-detection systems (NIDS) (基于 网 
络 的 人 侵 检 测 系统 ) 502-505 

Networking (网 络 ) 231, 240-241 

Network virtualization ( 网 络 虚 拟 化 ) 410-412 

Node profile ( 结 点 剖析 ) ，160 

Null reference checking 〈 空 引用 检查 ) 318-320 


O 


Object-oriented high-level language virtual machines (面向 对 
象 高 级 语言 虚拟 机 ) 228-231 
networking ( 网络) 231, 240-241 
performance (EĤE), 231, 241 
robustness (〈 健壮 性 ) 230-231, 237-240 
security and protection (安全 和 保护 ) 230, 232-237 
Objects, Java (Xf#, Java), 243 
Omniware VM (Omniware 虚拟 机 ) 112 
On-stack replacement ( OSR ) (EEM (OSR)), 
313-316 
Open Grid Services Architecture ( OGSA) (开放 网 格 服务 
体系 结构 ) 540 
Operand storage ( 操作 数 存 储 ) 243 
Operating system (操作 系统 ) ， 
call emulation (调用 仿真 ) 86, 128-129 
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dependencies ( 依赖 ) , 279 
interface (#201), 2, 13, 583-586 
managed state mapping 《管理 状态 上 映射) 89 
organization (组 成 ) 580-583 
Operating system emulation ( 操作 系统 仿真 ) , 
different operating systems (不 同 的 操作 系统 ) 132-133 
runtime-implemented ( 由 运行 时 实现 的 ) 129-130 
same 〔 相 同 的 ) 128-132 
Operation-level interface (操作 层 接 口 ) 408-409 
Optimization ( 优化) 12 
See also Binary optimization, dynamic; Emulation (参见 
二 进 制 优化 ， 动 态 ; 仿真 ) 
binary 〈 二 进 制 ) 15 
control transfer (控制 转移 ) 64-68 
Organization-level virtual machines. See Grids ( 组织 层 虚 拟 
机 ) 
Overhead, profiling ( 开销， 剖析 ) 166-167 


P 


Package (41), 284 
Page fault (页 失效 )， 
active detection 〈 积极 检测 ) ，348-349 
compatibility (兼容 性 ) ，347-348 
lazy detection (惰性 检测 )，349-350 
nonpaged mode (不 分 页 模式 )，420 
pseudo ($H), 420-421 
Page tables (Æ), 399-402, 572-573 
architected, virtualization (结构 的 ， 虚 拟 ) 399-402 
translation lookaside buffer and ( 旁 路 转换 缓冲 ， 快 表 )， 
575-576 
Paravirtualization ( 半 虚 拟 化 )，422 
Partial procedure inlining 《部 分 过 程 内 联 ) 170 
Partitioning. See Multiprocessor systems partitioning (分 区 ) 
Partition memory base register (PMBR) (分 区 存储 器 基 址 
寄存 器 ) 466, 467 
Partition memory limit register (PMLR) (分 区 存储 器 限界 
寄存 器 ) ，466 
Pascal ( Pascal), 16 
Pascal P-code (Pascal P-code) 
instruction set (7844), 227 
mark pointer (标志 指针 ) , 226 
mark stack 〈 标 志 栈 ) 226 
memory architecture ( 内 存 结构 ) , 225-227 
summary (44%) , 227-228 
Patching ( 修补 ) 210, 211-213, 391, 392-393 
Patch table (补丁 表 ) 211 
Path profile (#8422367), 161 
Performance (性 能 ) 


code cache management (代码 cache 管理 ) ，139-140 
high-level language virtual machines and (高 级 语言 虚拟 
机 ) , 306-320 
instruction emulation and (指令 仿真 )，115 
object-oriented high-level language virtual machines and 
(面向 对 象 高 级 语言 虚拟 机 ) 231, 241 
system virtual machines and (系统 虚拟 机 ) ，415-426 
Perl (Perl) ，29 
Physical partitioning (物理 划分 ) , 455-457 
Platform (s), (平台 ) 
Java (Java), 232, 261-262 
use of term (术语 的 使 用 )，2 
Policy engine (策略 引 警 ) ，509 
Polling modules ( 轮 询 模块 )，511 
Polymorphic inline caching (PIC) (ÆA caching), 312 
Pop stack into flags register (POPF) ( 弹 栈 并 写 到 标志 寄存 
器 ) 385-386, 391, 430 
Porting (移植 ) 221-222 
Power consumption. See Grids 
PowerPC ISA (PowerPC ISA), 35-36 
arithmetic (Ja), 74 
condition codes (条 件 码 ) 70 
description of (描述 )，600-606 
Precise exceptions (精确 的 例外 ) ，277 
Precise state reconstruction ( 精确 的 状态 重建 ) ，196-198 
Precise traps 〈 精确 的 陷阱 ) 62, 344-351 
Predecoding threaded interpretation ( 预 译 码 线索 化 解释 ) ， 
34-37 
incremental ( 增 量 的 ) 55-62 
Preemptive flush (抢先 清除 )，137-138 
Preferred-machine assist ( 优先 机 辅助 ) 423 
Primordial class loader (基本 的 类 加 载 器 ) 285 
Privileged instructions (特权 指令 )，384-385 
decoding ( 译 码 ) 418 
Privilege levels (特权 级 别 )，566-568 
Probes, profiling (284+, PBT), 157 
Procedure inlining (过 程 内 联 ) 169-170, 308-310 
Processors (处 理 器 ) 
management (#7), 580-581 
microarchitectures ( 微 体系 结构 ) , 555-556 
system calls (系统 调用 ) , 584 
virtualization (虚拟 化 ) , 382-396, 429-431 
Process virtual machines (进程 虚拟 机 ) ，10-11 
code cache management (代码 cache 管理 ) 133-140 
compatibility (HAE), 87-95 
components of (组 件 ) 84 
emulators and dynamic binary translators ( 仿真 器 和 动态 
二 进 制 翻译 器 )，13-15 
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exception emulation (异常 仿真 ) 119-128 
FX! 32 example (FX!32 RAE), 142-145 
high-level language (高 级 语言 ) 15-17 
implementation ( 实现) ，85-87 
implementation leaks 〈 实 现 漏 洞 ) 93-95 
instruction emulation 《指令 仿真 )，114-119 
memory architecture emulation ( 内 存 结构 仿真 ) ，102-114 
multiprogramming ( 多 道 程序 设计 ) ，13 
operating system emulation (操作 系统 仿真 ) 128-133 
operations and control transfers (操作 和 控制 转移 )， 
89-92 
role of (地 位 ， 作 用 ) ，83 
runtime software (运行 时 软件 ) 84 
same-ISA binary optimizers ( 相同 -ISA 二 进 制 优化 
器 ) ，15 
state mapping (状态 映射 ) 89, 95-102 
system environment ( 系统 环境 ) ，140-142 
Profile database (剖析 数据 库 ) 85-86, 116 
Profiling (前 析 ) 14-15, 67 
basic block/node 〈 基 本 块 / 结 点 ) 160 
binary optimization and (二 进 制 优化 和 )，148-150， 
156-157 
collecting (W), 161-163 
counter decaying (计数 器 衰减 ) 165 
edge (3), 161 
interpretation (解释 ) 163-165 
jump instructions 〈 跳 转 指 令 ) 165 
logs (Hak), 157 
overhead (FF), 166-167 
path (路 径 ) 161 
role of ( 作用 ， 地 位 ) 157-159 
translated code ( 翻译 代码 ) 165-166 
types of (类 型 ) 159-161 
Program shepherding (程序 引导 ) 63, 515 
Prolog side table (序言 索引 表 ) 206 
Protection system references (保护 系统 引用 ) 430 
Pseudo page-fault handling 〈 的 缺 页 处 理 ) ，420-421 
Pseudo self-modifying code (的 自修 改 代 码 ) 107-110 


R 


rdstc () (read time-stamp counter) 〈 读 取 时 间 稚 计数 器 ) , 
440-442 

Real address space (实际 地 址 空间 ) , 557 

Real map table (实际 映射 表 ) 397 

Recursive virtualization 〈 递 归 虚 拟 化 ) 390-391 

Reference type, Java (引用 类 型 ，Java) ，242 

Reflection ( 反射 ) 262, 263-265 

Register (s) 〈 寄 存 器 ) 
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architecture (2494), 69-70, 562-563, 568-569 
assign (4) Bc), 195-196 
map (RMAP) (映射 (RMAP)),， 194 
replicated ( Hj), 465-466 
update instructions (更 新 指令 ) 187, 188-189 
Register state ( 寄存 器 状态 ) ， 
binary translation ( 二进制 翻译 ) 126-127 
compatibility (482A HE), 183-184 
hypervisor (超级 管理 程序 )，465 
Register state mapping (寄存 器 状态 映射 )，50，51-52， 
69-70, 96 
codesigned virtual machines and (协同 设计 虚拟 机 )， 
333-337 ¢ 
consistent (〈 一 致 的 ) 127, 184-186 
Remote Spooling Communications System (RSCS) (远程 假 
脱 机 通信 系统 ) 421 
Repair code (修复 代码 ) ，197 
Replacement algorithm ( 替换 算法 )，559 
Resource control, system virtual machines and (资源 控制 ， 
系统 虚拟 机 和 ) , 377-379, 387 
Resource management, ISA (AIME, ISA), 566-580 
Return address stack (RAS), (返回 地 址 栈 ) 
dual-address ( 双 地 址 ) 342-344 


Return instructions (返回 指令 ) 251 


Reverse translation side table ( 反 向 转换 索引 表 )，124- 
125, 138 
ReVirt (ReVirt) , 512-515 
RIO system (RIO 系统 ) 515-519 
See also DynamoRIO system (参见 DynamoRIO 系统 ) 
RISC ISAs (RISC ISAs), 38, 125, 186, 206-207, 329 
Robustness (健壮 性 ) 230-231, 237-240 
Root set, garbage collection (RE, WRR), 302-303 
Runtime (运行 时 (软件 )) ,11 
-implemented operating system functions ( -实现 的 操作 系 
统 功能 ) ，129-130 
memory, protecting (AF, fF), 112-114 
in process virtual machines (在 进程 虚拟 机 中 )，84 
Runtime monitor, protecting (运行 时 监视 器 ) 519 


S 


Same-ISA dynamic binary optimization (相同 -ISA 动态 二 进 
HEIE). 15, 29, 208-218 

Same-ISA emulation (相同 -ISA HA), 63-64 

Sampling-based profiling (基于 采样 的 剖析 ) 162-163 


‘Sandbox. See Security and protection ( 沙 盒 见 安全 和 保护 ) 


Scalar replacement 〈 标量 替 换 ) 317 
Scheduling algorithm (调度 算法 ) 192-199 
Security (#4), 501 
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binary rewriting ( 二 进 制 重 写 ) 515-519 
intrusion-detection systems (_A R Yi] KBE), 502-505, 
508-511 
logging (A38), 505-506, 511-515 
monitoring and recovering from attacks (攻击 的 监视 和 恢 
#), 505-506 
role of virtual machines ( 虚拟 机 的 地 位 ) , 506-520 
Security and protection (安全 和 保护 )，230，232-237 ， 
286-294 
basic 〈 基 本 的 ) 286-287 
enforcement 〈 强 制 执行 ) 290-291 
enhanced model (增强 模型 ) ，291-294 
intraprocess (进程 内 ) 287-290 
Segment sharing 〈 段 共享 ) 423 
Self-modifying code (自修 改 代码 )，62，107-114，278- 
279, 337-339 
Self-referencing code 〈 自 引用 代码 )，62，107-114 278- 
279, 337-339 
Sensitive instructions (敏感 指令 ) 385-386, 430 
Serializability and reflection (序列 化 和 反射 ) 263-265 
SETI@ home project (SETI@ home WH), 545 
setrlimit () (setrlimit ()), 133 
Shade System simulation (Shade 系统 模拟 ) 63, 77-79, 
137, 153 
Shadow page tables (影像 页 表 ) , 399 
bypass assist, 423 
Shadow stack (影子 栈 ) 68 
Shared-memory processing (SMP) (共享 存储 多 处 理 器 ) , 
446, 447, 590, 594-600 
Side tables (索引 表 ) , 87 
epilog (faim, ÆR), 205-206 
prolog (前 导 ， 头 部 ) 206 
reverse translation ( MÆ), 124-125, 138 
Signals (信号) 585-586 
Signature detection 〈 信 和 号 检测 ) 510-511 
Signing (4%), 292 
SIGSEGV (SIGSEGV), 104, 105 
Simulation, Shade System (#i #1, Shade RHE), 63, 77- 
79, 137, 153 
Slots, Java stack (4¢4@#Y, Java #2), 243 
Software indirect jump prediction (软件 间接 跳 转 预测 )， 
66-67 
Software pipelining, 47 
Software translation tables，97-100 
Source program counter/code 〈 源 程序 计数 器 /代码 ) 37, 
54, 56 
locating (定位 ) 124-126 
tracking (追踪 ) ，59-60 


SPARC ISA (SPARC ISA), 70, 74 
Spatial locality (空间 局 部 性 ) 167 
Specialization (专门 化 ) 312-313 
Spool files 〈 假 脱 机 文件 ) 421 
Stack (s) ($R), 
architected 《结构 化 的 ) 314 
implementation ( 实现) 314 
inspection (检查 ) ，293-294 
replacement ( 替换) 313-316 
structure, Java (#844, Java), 243-244, 282 
tracking, Java (Rk, Java), 251-254 
Staged emulation 《分 阶段 的 仿真 ) 116-119, 151-153 
Stanford Collective ( Stanford Collective), 526-532 
Start Interpretive Execution (SIE) (开始 解释 执行 )， 
424-426 
Start point, trace (起 点 ， 踪 迹 ) 172 
Start threshold value (启动 门限 值 ) 175 
Start-up time (启动 时 间 ),，115 
State management 《状态 管理 ) 375-377 
State mapping (状态 映射 ) 
codesigned virtual machines and register (协同 设计 虚拟 机 
和 寄存 器 ) , 333-337 
compatibility issues 《兼容 性 问题 101-102 
direct (直接 的 ) 100-101 
memory address (内存 地 址 ) 96, 97-102 
process virtual machine ( 进程 虚拟 机 ) ，89 ，95-102 
register (寄存 器 ) 50, 51-52, 69-70, 96, 333-337 
Static basic block (静态 基本 块 )，56-57 
Static predecoding (静态 预 译 码 ) 52-53 
Static translation (HAME), 52-53 
Steady state performance ( 稳 态 性 能 ) 115 
Stopping condition, ，superblock〈 终 止 条 件 ， 超 块 ) 172 
Storage, Java data (存储 ，Java 数据 ) 243-246 
Streams, MSIL ( 流 ，MSIL) ，271 
Strength reduction (强度 削弱 ) 201, 205 
Sun Microsystems (Sun 微 系统 )， 
HotSpot (HotSpot) , 306 
Java VM architecture (Java VM 结构 ) 17 
physical partitioning (物理 分 区 ) 455 
Wabi system (Wabi 系统 ) 119, 133 
Superblocks (H), 118, 150 
continuation set 〈 持 续集 合 ) 175-176 
dynamic formation (动态 形成 ) ，173-178 
inter-, optimizations 《 间 -， 优 化 ) 205-206 
most-frequently-used method (最 常 使 用 的 方法 )，175， 
176, 177 
most-recently-used method (最 近 使 用 的 方法 )，175， 
177-178 


or 


才 à äl 


starting points (起 始点 ) 174-175 
stopping points (终止 点 ) 176-177 
versus traces 《与 踪迹 ) 199-201 
Super_Class, Java (4%, Java), 258 
System call interface (系统 调用 接口 )，8，408,，410 
System clock register (系统 时 钟 寄 存 器 ) , 568-569 
System virtual machines (系统 虚拟 机 ) 11-12, 17-22 
applications (应 用 ) 370-373 
codesigned, hardware optimization (协同 设计 ,硬件 优 
tk), 21-22 
development of (-……- 的 开发 ) 17-18, 369 
IBM System/370 (---+++ IBM 系统 /370) , 381-382 
implementation of (…… 的 实现 ) 19 
input/output virtualization (输入 /输出 虚拟 ) ，404-415， 
431-435 
Intel VT-x ( Vanderpool ) 
pool) ) , 436-442 
logical partitioning and (逻辑 划分 ) 464-465 
memory virtualization (存储 器 虚拟 化 ) 396-404, 435 
native and hosted virtual machines (本 地 和 宿主 虚拟 机 )， 
379-381 
performance enhancement (性 能 提升 )，415-426 
processor virtualization (处 理 器 虚拟 化 )，382-396 ， 
429-431 
recursive virtualization (递归 虚拟 化 ) 390-391 
resource control (资源 控制 ) 377-379 
state management (状态 管理 ) ，375-377 
VMware Virtual Platform (VMware 虚拟 平台 ) 426-435 
whole (emulation), (4 (仿真 ) ) 19-21 
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(Intel 的 VT-x ( Vander- 


Tail duplication (尾部 复制 ) 173 
Target program counter ( 目标 程序 计数 器 ) 37, 54, 56 
Technology-independent machine interface (技术 独立 的 机 器 
接口 ) 358 
Temporal locality ( 时间 局 部 性 ) 167 
Terra system (Terra 系统 ) 519 
This_Class, Java (4826, Java), 258 
Threaded interpretation (线索 解释 ) , 29, 32-38 
for CISC ISA (对 于 CISC ISA) , 44-46 
direct (直接 的 ) 37-38, 80, 81-82 
indirect (间接 的 ) , 80, 81 
predecoding ( 预 译 码 ) 34-37 
Threads, Java (线程 ，Java) ，265-267 
Timer, virtual interval (计时 器 ， 虚 拟 间隔 ) 418-419 
Time sharing (分 时 共享 ) 369 
Tokens, MSIL (i2, MSIL), 271-272 
Traces (踪迹 ) 171-173 
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superblocks versus (#345), 199-201 
Translated code, profiling ( ZAE, BGT), 165-166 
Translation blocks, optimizing ( 翻译 块 ， 优 化 ) ， 
improving locality 〈 提高 局 部 性 ) 167-171 
superblocks ( 超 块 )，173-178 
traces (踪迹 )，171-173 
tree groups 《 树 艇 ) 178-180 
Translation lookaside buffer (TLB) ( 旁 路 转换 缓冲 ， 快 
Æ), 78-79, 338, 350-351, 399, 402-404 
architected, virtualization (结构 化 ， 虚 拟 化 ) , 402-404 
hit (命中 )，575 l 
miss (RA), 575 
page tables and ( HÆ), 575-576 
partitioning (分 区 ) 466-469 
role of (……: RIVERA) , 573-575 
Translation tables, software (变换 表 ， 软 件 ) 97-100 
direct ( 直接 的 ) 100-101 
pointers (指针 ) , 569 
Transmeta Crusoe ( Transmeta Crusoe), 22, 24, 331, 
338, 353, 354-357 
Transparency, complete (透明 ， 完 全 的 ) ，88 
Traps (KBH), 
compatibility (兼容 性 ) 182-183 
detecting (检测 ) ，120-121 
handling 《处 理 ) 577-580 
precise (精确 的 )，62，344-351 
process virtual machine (进程 虚拟 机 ) 86 
registers (寄存 器 ) 569 
use of term (术语 使 用 ) 119 
Tree groups (#4#%), 178-180 
Trigger (触发 器 ) , 166 
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UNIX (See also Linux) (UNIX (参见 Linux) ) 104-105 

User ISA 《用户 ISA), 8, 561-566 

User-managed state mapping 〈 用 户 管理 的 状态 映射 ) 89 

V > 

VAX ISA (VAX ISA), 39 

Very long instruction word ( VLIW) processors ( 超 长 指令 
字 (VLIW) 处 理 器 ) 186, 331, 555 

VirtualCenter, VMotion ( VirtualCenter 的 VMotion ) ， 
532-535 

Virtual disks (虚拟 磁盘 ) , 405 

Virtual-equals-real virtual machine ( 虚实 相等 虚拟 机 )， 
422-423 

Virtual-ISA (虚拟 -ISA)，222 
summary of features (特点 的 总 结 ) ，275-279 
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Virtualization (虚拟 ),， 3-4, 10 
See also Multiprocessor systems ( 参见 多 处 理 器 系统 ) ， 
partitioning (分 区 ) ， 
architected page table (结构 化 页 表 ) 399-402 
devices (设备 ) ，404-407 
input/output (输入 /输出 ) 404-415 ，431-435 
memory ( 存储 器 ) 396-404, 435 
network ( 网络) 410-412 
para- (Æ), 422 
processor (处 理 器 ) 382-396, 429-431 
recursive〈 递 归 ) 390-391 
translation lookaside buffer (TLB) ( 旁 路 转换 缓冲 ， 快 
#), 402-404 
with different guest and host (不 同 的 主机 和 客户 机 ) , 
485-496 _ 
Virtual Machine Communications (虚拟 机 交互 设备 ) 
Facility (VMCF), 421 ' 
Virtual machine monitor (VMM) ( 虚拟 机 监控 器 ) 11, 
331-332 
See also System virtual machines (参见 系统 虚拟 机 ) 
allocator (分 配器 ) 386 
assists ( 辅助 ) 418-419 
components of (组 件 ) 386-387 
dispatcher 《调度 器 ) 386 
interpreter routines (解释 程序 ) 386-387 
partitioning and. (划分 ) 452 
properties of (特性 ) 387 





Virtual machines (VMs) (虚拟 机 ) 

See also under type of 

applications (应 用 程序 ) ，12-13 

assists ( 辅助 ) 416-419 

basics of (基本 ) ，9-13 

process (W2), 10-11, 13-17 

role of (功能 ) 4-6 

system (RÆ), 11-12, 17-22 

taxonomy (分 类 ) 22-23 

versatility of (多 功能 性 ) 23-24 
VMotion (VMotion) , 532-535 
VMware Virtual Platform (VMware 虚拟 平台 ) , 426-435 
Volatile memory location ( 易 失 性 内 存 位 置 ) , 187-188 
VT-x (Vanderpool) (VT-x ( Vanderpool) ) , 436-442 
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Wiggins/Redstone system ( Wiggins/Redstone 系统 ) 209 
Windows operating system (Windows 操作 系统 ) ，130-132 
Win32 (Win32), 133, 141 

World Wide Grid Forum (环球 网 格 论坛 ) 540 

Wrappers ( 4132), 9 

Write barriers (BSR) , 302 

Write-protect table ( 写 保护 表 ) 338 
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Xen system (Xen RHE), 422 





